Open LLM Leaderboard (开源大模型榜单)专注于评估开源大模型的综合能力,涵盖知识理解、逻辑推理、数学计算、指令遵循等核心任务。其评测框架基于 Eleuther AI 语言模型评估工具,通过统一的标准对模型进行多维度测试,确保结果的可比性。

自发布以来,榜单已成为业界衡量模型性能的“黄金标准”,吸引了超过 200 万独立访问者,并推动了 Meta Llama、阿里通义千问等顶尖模型的迭代

2025年2月11日消息,榜单显示,其排名前十的开源大模型全部是基于阿里通义千问(Qwen)开源模型二次训练的衍生模型。

Open LLM Leaderboard

产品功能

  • 多维度评测基准
    涵盖 6 大核心任务,包括知识测试(MMLU-Pro、GPQA)、长上下文推理(MuSR)、数学能力(MATH 5级)、指令遵循(IFEval)等,全面考察模型能力。
  • 动态排名系统
    提供模型在标准化得分(0-100分)和原始得分下的对比排名,消除不同基准难度差异的影响,确保公平性。
  • 防污染机制
    严格筛选未在评测数据上过拟合的模型,避免分数虚高。
  • 开源生态支持
    用户可通过 Hugging Face 平台直接提交模型,自动触发评测流程,结果公开透明

数据统计

相关导航

暂无评论

暂无评论...