Open LLM Leaderboard

3个月前发布 244 00

开源大模型的综合能力排行榜

收录时间：

2025-02-12

Open LLM Leaderboard （开源大模型榜单）专注于评估开源大模型的综合能力，涵盖知识理解、逻辑推理、数学计算、指令遵循等核心任务。其评测框架基于 Eleuther AI 语言模型评估工具，通过统一的标准对模型进行多维度测试，确保结果的可比性。

自发布以来，榜单已成为业界衡量模型性能的“黄金标准”，吸引了超过 200 万独立访问者，并推动了 Meta Llama、阿里通义千问等顶尖模型的迭代

2025年2月11日消息，榜单显示，其排名前十的开源大模型全部是基于阿里通义千问（Qwen）开源模型二次训练的衍生模型。

产品功能

多维度评测基准：
涵盖 6 大核心任务，包括知识测试（MMLU-Pro、GPQA）、长上下文推理（MuSR）、数学能力（MATH 5级）、指令遵循（IFEval）等，全面考察模型能力。
动态排名系统：
提供模型在标准化得分（0-100分）和原始得分下的对比排名，消除不同基准难度差异的影响，确保公平性。
防污染机制：
严格筛选未在评测数据上过拟合的模型，避免分数虚高。
开源生态支持：
用户可通过 Hugging Face 平台直接提交模型，自动触发评测流程，结果公开透明

数据统计

暂无评论

暂无评论...

Open LLM Leaderboard

产品功能

数据统计

相关导航

C-Eval

LLM Mafia Game

Artificial Analysis

Chatbot Arena

VBench

暂无评论

网址

朱雀大模型检测

即梦AI

Trae 国际版

Chatbot Arena

海螺AI

AI 动漫生成器

DeepSeek

Weights

堆友D.Design

Fish Audio

网址

使用 viggle ai 来制作古人版“小明剑魔”回答我，搞笑视频！

厦门大学DeepSeek 大模型科普文档下载，141页PPT 讲解大模型概念、技术与应用实践

北京大学 DeepSeek内部研讨文档下载：DeepSeek与AIGC应用

ChatGPT详细注册教程，解决ChatGPT国外手机号认证问题!

Face Swap — AI换脸工具离线版，一键更换视频/图片人物脸部！ROOP

抖音剪映APP新增“AI扩图”功能，限时免费！剪映”AI扩图”入口

Open LLM Leaderboard

产品功能

数据统计

相关导航

C-Eval

LLM Mafia Game

Artificial Analysis

Chatbot Arena

VBench

暂无评论

网址

朱雀大模型检测

即梦AI

Trae 国际版

Chatbot Arena

海螺AI

AI 动漫生成器

DeepSeek

Weights

堆友D.Design

Fish Audio

网址

使用 viggle ai 来制作 古人版“小明剑魔”回答我，搞笑视频！

厦门大学DeepSeek 大模型科普文档下载，141页PPT 讲解大模型概念、技术与应用实践

北京大学 DeepSeek内部研讨文档下载：DeepSeek与AIGC应用

ChatGPT详细注册教程，解决ChatGPT国外手机号认证问题!

Face Swap — AI换脸工具离线版，一键更换视频/图片人物脸部！ROOP

抖音剪映APP新增“AI扩图”功能，限时免费！剪映”AI扩图”入口

使用 viggle ai 来制作古人版“小明剑魔”回答我，搞笑视频！