Open LLM Leaderboard (开源大模型榜单)专注于评估开源大模型的综合能力,涵盖知识理解、逻辑推理、数学计算、指令遵循等核心任务。其评测框架基于 Eleuther AI 语言模型评估工具,通过统一的标准对模型进行多维度测试,确保结果的可比性。
自发布以来,榜单已成为业界衡量模型性能的“黄金标准”,吸引了超过 200 万独立访问者,并推动了 Meta Llama、阿里通义千问等顶尖模型的迭代
2025年2月11日消息,榜单显示,其排名前十的开源大模型全部是基于阿里通义千问(Qwen)开源模型二次训练的衍生模型。

产品功能
- 多维度评测基准:
涵盖 6 大核心任务,包括知识测试(MMLU-Pro、GPQA)、长上下文推理(MuSR)、数学能力(MATH 5级)、指令遵循(IFEval)等,全面考察模型能力。 - 动态排名系统:
提供模型在标准化得分(0-100分)和原始得分下的对比排名,消除不同基准难度差异的影响,确保公平性。 - 防污染机制:
严格筛选未在评测数据上过拟合的模型,避免分数虚高。 - 开源生态支持:
用户可通过 Hugging Face 平台直接提交模型,自动触发评测流程,结果公开透明
数据统计
相关导航
暂无评论...