MiniMax 稀宇科技发布万亿MoE模型 abab 6.5，核心能力接近 GPT-4

IT之家 4 月 17 日消息，国内 AI 初创企业 MiniMax 稀宇科技今日正式推出 MoE 混合专家模型架构的 abab 6.5 系列模型，核心能力开始接近 GPT-4、 Claude-3、 Gemini-1.5。

abab 6.5 系列包含两个模型：

abab 6.5：包含万亿参数，支持 200k tokens 的上下文长度；
abab 6.5s：与 abab 6.5 使用了同样的训练技术和数据，但是更高效，支持 200k tokens 的上下文长度，可以 1 秒内处理近 3 万字的文本。

自一月发布国内首个基于 MoE 架构的 abab 6 模型后，MiniMax 通过改进模型架构，重构数据 pipeline，训练算法及并行训练策略优化等，在加速 Scaling Laws 过程上取得阶段性成果。

IT之家附 abab 6.5 系列模型测试结果如下：

官方在 200k token 内进行了业界常用的“大海捞针”测试，即在很长的文本中放入一个和该文本无关的句子（针），然后通过自然语言提问模型，看模型是否准确将这个针回答出来。在 891 次测试中，abab 6.5 均能正确回答。

▲ 海螺 AI 页面

abab 6.5 与 abab 6.5s 模型将滚动更新至 MiniMax 旗下产品，包括海螺 AI 与 MiniMax 开放平台。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

MiniMax 稀宇科技发布万亿MoE模型 abab 6.5，核心能力接近 GPT-4

友情提示

独特且惊艳！暑期档清流电影来袭 | 哈评大赏No.133

犯罪电影《重生》8.16登陆IMAX®影院张家辉阮经天IMAX大银幕联手除害

“光影织梦”IMAX特制拍摄大师课举行曹郁拆解《解密》梦境幕后故事

中国AI应用火到美国！下载量前十中占据三款

从《唐探》到《解密》，陈思诚对中国电影工业化的探索

经济下行，电影票房却创奇迹，“口红效应”再现江湖

孙女在爷爷公司实习，各种怼爷爷，惊得公司高层乍舌

杭州女子戴金手镯做磁共振发现手镯是假的！

严肃瞬间：纪委现场调查，紧张气氛扑面而来！

姐姐16岁弟弟一岁也能打起来

男孩吐血不止，杭州交警迅速转身骑上警车，一路怒吼为其开道。

死刑犯不仅成功越狱，还躲在暗处看着警方搜捕自己，喝起了小酒

男子跟三个寡妇打麻将！笑到肚子疼的爆笑对话，你笑了吗？

这就是旺三代的媳妇，祖上积德啊，才能娶到这么好的媳妇

春节假期南京哪些景区是“顶流”

美国驻华大使回国后，竟这样评价中国和特朗普，全世界大吃一惊!

这次相亲的对象美若天仙，还好听老妈的话来了，不然就错过了女神

广东汕头小公园强势“出圈”

MiniMax 稀宇科技发布万亿MoE模型 abab 6.5，核心能力接近 GPT-4

友情提示

独特且惊艳！暑期档清流电影来袭 | 哈评大赏No.133

犯罪电影《重生》8.16登陆IMAX®影院 张家辉阮经天IMAX大银幕联手除害

“光影织梦”IMAX特制拍摄大师课举行 曹郁拆解《解密》梦境幕后故事

中国AI应用火到美国！下载量前十中占据三款

从《唐探》到《解密》，陈思诚对中国电影工业化的探索

经济下行，电影票房却创奇迹，“口红效应”再现江湖

孙女在爷爷公司实习，各种怼爷爷，惊得公司高层乍舌

杭州女子戴金手镯做磁共振发现手镯是假的！

严肃瞬间：纪委现场调查，紧张气氛扑面而来！

姐姐16岁弟弟一岁也能打起来

男孩吐血不止，杭州交警迅速转身骑上警车，一路怒吼为其开道。

死刑犯不仅成功越狱，还躲在暗处看着警方搜捕自己，喝起了小酒

男子跟三个寡妇打麻将！笑到肚子疼的爆笑对话，你笑了吗？

这就是旺三代的媳妇，祖上积德啊，才能娶到这么好的媳妇

春节假期南京哪些景区是“顶流”

美国驻华大使回国后，竟这样评价中国和特朗普，全世界大吃一惊!

这次相亲的对象美若天仙，还好听老妈的话来了，不然就错过了女神

广东汕头小公园强势“出圈”

犯罪电影《重生》8.16登陆IMAX®影院张家辉阮经天IMAX大银幕联手除害

“光影织梦”IMAX特制拍摄大师课举行曹郁拆解《解密》梦境幕后故事