主页 › 阅读 › 热点 › 阿里，全球第一！！！

阿里，全球第一！！！

罗超Pro 发布于 2024-06-30 00:09:17

8 0

近日，全球著名开源平台HuggingFace（笑脸）联合创始人兼首席执行官Clem在社交平台宣布，阿里最新开源的Qwen2-72B指令微调版本卫冕冠军，继续位列全球开源模型排行榜第一名。

在OpenAI拒绝中国开发者的当口，这个“第一名”来得非常及时。

第一，中国开发者从OpenAI集体“回家”，国内大模型供应商纷纷推出迁移方案迎接。雷科技在《OpenAI拒绝中国开发者，“百模大战”全面进入下半场》一文已盘点，超过10家大模型供应商推出各种服务来“抢客”。

不过，在很多人固有印象中，中国大模型供应商只是“平替版本”，是实在没得用了，勉强能用的。甚至还有人说GPT是高铁，国产大模型就是拖拉机，虽然都能跑，但其实不一样。

其实这是偏见，在很多领域，国内大模型都已经具有世界级竞争力了，特别是开源大模型。

什么叫具备世界级竞争力的大模型？这里分两种：

一种是每次发布会都号称全面碾压GPT4的玩家，参数没输过，评测没赢过，这是自卖自夸，自吹自擂。

还有一类，是在权威榜单上拿到名次的。HuggingFace是全球最权威的开源模型榜单，它给阿里云的Qwen2“正名”，或者说给了“权威认证”。

第二，为什么HuggingFace能做全球最权威的开源模型榜单？

为什么HuggingFace能做全球最权威的开源模型榜单？这个定义不是随便给的，而是跟这个平台的背景有关系。HuggingFace不是大模型供应商，而是全球最受欢迎的大模型和数据集开源社区，开发者可以在这里获取大模型开源代码、获取数据集进行训练。可以说，做AI开发，基本绕不过HuggingFace，因此它也被称为大模型/机器学习的GitHub。

也就是说，HuggingFace更像是一个大模型的应用、分发、发布平台。包括微软、Facebook、特斯拉等等巨头的大模型，都会在HuggingFace主发布。比如在前段时间的微软Build大会，纳德拉就宣布微软在 Huggingface 上发布了 Phi-3-medium，Phi-3-small，以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消费级硬件上可用的最好模型。

有海量开源大模型以及数据集，有海量AI开发者以及使用数据，因此HuggingFace可以做出行业最权威的开源模型榜单。这跟媒体或者专门的第三方评测机构做的榜单有本质不同。很多评测榜单源自这样的“第三方”，姑且不说权威性、客观性、中立性，恐怕专业性也会大打折扣。

好了，说清楚HuggingFace榜单的权威性后，我们再看阿里云的Qwen2有多强？

第三，为什么HuggingFace 6月两次发榜？榜单V2意义在哪里？

其实今年6月7日，HuggingFace也发过一次榜单，当时第一也是Qwen2。为什么要更新榜单到V2呢？HuggingFace说是，“榜单内的测试集，更难、更好、更快、更强（Harder, better, faster, stronger）。”因此，对模型的考察也更有说服力。

其实对大模型基于测试数据集进行评测的过程，形象点说就是“做题考分”，跟我们考试一样。但问题是，这个题目是开放的。因此就出现了一种情况：很多大模型会“刷题”，就是让大模型先训练几波，进而拿到好的评测分数，有的公司会雇佣人类“数据标注员”来做题将答案给到大模型，还有的公司会让GPT-4来答题再将答案用来训练自家大模型，大模型做题就可以“满分”了。许多大模型刚推出就可以拿满分“排第一”碾压GPT-4，玄妙正在于这里。

也就是说，开源评测数据集相当于高考搞“开卷考试”一样，除非是特别开放的问题（如职场面试），否则被试者完全可以提前针对性地刷题背答案，最终得分自然完全无法反映出其真实水平。

HuggingFace也在技术博文指出，“过去一年，Open LLM Leaderboard的基准指标已经被过度使用，出现几个问题：题目对模型来说变得太简单；一些新近出现的模型出现数据污染迹象；有些测评基准存在错误。因此，平台提出了更有挑战性的V2榜单，基于未受污染、高质量数据集的新基准，运用可靠的度量标准。”

好了，现在测试数据集（题目）大更新，最新的试卷、最新的考试，阿里云的Qwen2还是第一。也正是因为此，Huggingface联合创始人兼首席执行官Clem才会公开发文称“Qwen2-72B是王者，中国在全球开源大模型领域处于领导地位。”如果没有严格、充分的测试，他不可能公开进行这样的“点赞”。

期待以后HuggingFace的榜单可以升级更快，测试数据集可以更新更快，阿里云的Qwen2以及国产大模型可以继续拥有更好的名次。

OpenAI不支持中国开发者，开源大模型厂商必须要快速精进，勇敢补位。现在，是国产大模型、国产开源大模型生态被倒逼加速进步的绝佳时机，也是证明自己的好时机。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

阿里，全球第一！！！

友情提示

梁文锋：什么英伟达、台积电，我们都可以轻松搞出来

风向变了，估计很多外媒还没有察觉，国内已经动作频频了！

蒋凡归来，接管阿里5000亿命脉

阿里云宣布2024云栖大会于9月19日至21日在杭州举办，畅享票免费申请

伊朗高级军事指挥官沙德马尼伤重不治

“三边坡”入驻优酷，《边水往事》导演加入阿里大文娱

男子被路虎车撞飞后，司机下车疯狂追赶男子！冲动是魔鬼！

释永信官宣被查少林寺产所有权管理权再成疑问

小女孩斑马线被车撞倒，后续是。。。#孩子安全#斑马线

蒋欣为什么把关晓彤的手拿下来？真的是手上都戒指被人看到吗？

飞向伊朗

前人栽树，后人乘凉，刘强东的魅力究竟有多大？

韩外长致电王毅究竟有何目的

遇到街头受伤流浪狗你会帮吗

如何用四个字证明你看过三国演义

全红婵今晚估计开心的不得了不是因为她最近训练良好，而是因为她的教练陈若琳正式入选2025年国际游泳名人堂。陈若琳获得的成就非常高，她是奥运会跳水项目五金王，陈若

泰国目前到底谁说了算？通过本轮泰柬冲突，看出来一个问题，那就是泰国目前还是佩通坦说了算，而代总理普坦只是她的一个传声筒而已。自7月24日，泰国和柬埔寨在边境地区

中美贸易战已经变味儿了！现在已经不是什么芯片，加税，减少逆差的问题了。现在是要强迫中国参加美国围攻俄罗斯，伊朗。站队美国阵营的事儿了。美国这么做，其实是有点急了