评测排行

Chatbot Arena

Chatbot Arena 也被成为聊天机器人竞技场,它是由LMSYS Org 创建的一个 大语言模型(LLM)对比竞技平台,通过对比后并将这个大语言模型(LLM)进行排名。

2025年2月20日最新的一期排行榜中,Grok 3 得分1402分,成为首个突破1400分的模型,超越GPT-4o和DeepSeek-R1。在编程、数学、创意写作、指令遵循、长查询、多轮对话等多个维度下Grok 3 都取得了第一的成绩。

Chatbot Arena

 

目前该平台通过三种评分机制,来对比哪个聊天机器人实力最强。这三个机制分别是Arena Elo rating 、MT-bench 、MMLU 其中第一个Arena Elo rating 评分系统类似于王者荣耀中的elo匹配机制,它把各家的聊天机器人当做玩家,让他们之间随机对战,通过4万多名用户投票来进行elo评级。

  • Chatbot Arena – 一个众包、随机的战斗平台。我们使用 40K+ 用户投票来计算 Elo 评级。
  • MT-Bench – 一组具有挑战性的多回合问题。我们使用 GPT-4 对模型响应进行评分。
  • MMLU(5-shot)——衡量模型在 57 项任务上的多任务准确性的测试。
Chatbot Arena

 

数据统计

相关导航

暂无评论

暂无评论...