Chatbot Arena

Chatbot Arena

Chatbot Arena AI大模型竞技场排行榜

标签：评测排行ai排行榜 Chatbot Arena 聊天机器人竞技场

链接直达">手机查看

Chatbot Arena 也被成为聊天机器人竞技场，它是由LMSYS Org 创建的一个大语言模型（LLM）对比竞技平台，通过对比后并将这个大语言模型（LLM）进行排名。

2025年2月20日最新的一期排行榜中，Grok 3 得分1402分，成为首个突破1400分的模型，超越GPT-4o和DeepSeek-R1。在编程、数学、创意写作、指令遵循、长查询、多轮对话等多个维度下Grok 3 都取得了第一的成绩。

Chatbot Arena

目前该平台通过三种评分机制，来对比哪个聊天机器人实力最强。这三个机制分别是Arena Elo rating 、MT-bench 、MMLU 其中第一个Arena Elo rating 评分系统类似于王者荣耀中的elo匹配机制，它把各家的聊天机器人当做玩家，让他们之间随机对战，通过4万多名用户投票来进行elo评级。

Chatbot Arena – 一个众包、随机的战斗平台。我们使用 40K+ 用户投票来计算 Elo 评级。
MT-Bench – 一组具有挑战性的多回合问题。我们使用 GPT-4 对模型响应进行评分。
MMLU（5-shot）——衡量模型在 57 项任务上的多任务准确性的测试。

Chatbot Arena

数据统计

相关导航

C-Eval

大语言模型的多层次多学科中文评估套件

Open LLM Leaderboard

Open LLM Leaderboard

开源大模型的综合能力排行榜

VBench

AI视频生成模型评测体系

LLM Mafia Game

AI狼人杀，让大模型玩狼人杀相互博弈

暂无评论

暂无评论...