斯坦福大模型评测榜 Claude 3 排名第一

IT之家 6 月 22 日消息，斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。

据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分，模型必须具备广泛的世界知识和解决问题的能力。IT之家附排名如下：

▲ 图源斯坦福大学基础模型研究中心官网

1、Claude 3 Opus（20240229）： Anthropic（美国，亚马逊投资）
2、GPT-4o（2024-05-13）：OpenAI（美国）
3、Gemini 1.5 Pro：谷歌（美国）
4、GPT-4（0613）：OpenAI（美国）
5、Qwen2 Instruct（72B）：阿里巴巴（中国）
6、GPT-4 Turbo（2024-04-09）：OpenAI（美国）
7、Gemini 1.5 Pro（0409 preview）：谷歌（美国）
8、GPT-4 Turbo（1106 preview）：OpenAI（美国）
9、Llama 3（70B）：Meta（美国）
10、Yi Large（Preview）：零一万物（中国）

Qwen2 是由阿里巴巴开发的一款开源大语言模型，发布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在内的五个不同规模的预训练及指令微调模型；支持除英语和中文外的额外 27 种语言的数据训练；Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的上下文。

Yi Large 是由零一万物公司开发的一款闭源大模型，Yi 模型系列基于 6B 和 34B 预训练语言模型，然后扩展到聊天模型、200K 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 GPT-4 和 Claude 3 Opus 等领先模型”。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

斯坦福大模型评测榜 Claude 3 排名第一

友情提示

斯坦福大学博士已入职安徽灵璧乡镇公务员岗目前在镇政府工作其本人不愿再被外界关注

美国历史第1乒乓球高手，父母中国人：4战奥运会，梦想夺牌

12GB+256GB+90W闪充，现已跌至1522元，使用五年流畅不卡顿

谷歌发布端侧小模型Gemma 2 2B，20亿参数可运行于手机电脑等终端

美媒评选世界五大伟人，斯大林排最后，榜首实至名归，是个中国人

美政坛迎来新一轮“大战”，哈里斯的特殊能力，让特朗普如临大敌

台当局为采购美战机举债200亿新台币

《沉默的荣耀》创作座谈会在京举行

法媒今天（10月26日）报道：“鲁比奥：美国不会为与中国达成协议而放弃台湾。鲁比奥表示，外界的担忧‘没有根据’。‘如果有人担心我们为了达成一项贸易协议，或者换取

中美都欠钱，联合国破产在即，古特雷斯通告全世界，中方有一计

快讯！快讯！刚得知的最新消息:从马来西亚谈完，中美这局棋，太关键了！不是吓你，全球供应链真可能要大洗牌！美国那边要是真敢再掀桌子，汽车、芯片、AI，两个

我国成功发射高分十四号02星

斯坦福大模型评测榜 Claude 3 排名第一

友情提示

斯坦福大学博士已入职安徽灵璧乡镇公务员岗目前在镇政府工作其本人不愿再被外界关注

美国历史第1乒乓球高手，父母中国人：4战奥运会，梦想夺牌

12GB+256GB+90W闪充，现已跌至1522元，使用五年流畅不卡顿

谷歌发布端侧小模型Gemma 2 2B，20亿参数可运行于手机电脑等终端

美媒评选世界五大伟人，斯大林排最后，榜首实至名归，是个中国人

美政坛迎来新一轮“大战”，哈里斯的特殊能力，让特朗普如临大敌

台当局为采购美战机举债200亿新台币

《沉默的荣耀》创作座谈会在京举行

法媒今天（10月26日）报道：“鲁比奥：美国不会为与中国达成协议而放弃台湾。鲁比奥表示，外界的担忧‘没有根据’。‘如果有人担心我们为了达成一项贸易协议，或者换取

中美都欠钱，联合国破产在即，古特雷斯通告全世界，中方有一计

快讯！快讯！​刚得知的最新消息:​从马来西亚谈完，中美这局棋，太关键了！不是吓你，全球供应链真可能要大洗牌！​​美国那边要是真敢再掀桌子，汽车、芯片、AI，两个

我国成功发射高分十四号02星

快讯！快讯！刚得知的最新消息:从马来西亚谈完，中美这局棋，太关键了！不是吓你，全球供应链真可能要大洗牌！美国那边要是真敢再掀桌子，汽车、芯片、AI，两个