MiniMax深夜开源首个推理模型M1,这次是真的卷到DeepSeek了。
创始人
2025-06-17 12:12:44
0

不知道还有多少人记得,AI行业的六小虎。

行业内都在说,他们已经寂静好久了。

上一次相关的项目发布,还是前一段时间我写的MiniMax声音模型的更新,Speech-02。

而昨晚凌晨将近12点的时候,又是MiniMax,居然在X上,预告了他们一整周的发布计划。

给我整不会了,不是,为什么总是选择这么阴间的时间点发布啊。。。

而第一天(也就是昨天),发布了他们MiniMax Week的第一个项目:开源MiniMax首个推理模型M1。

出手就开源,还是秀的,看看跑分。

我先说结论:“MiniMax M1的上下文能力,就现在全球最屌、最牛逼的、足以媲美Gemini 2.5 Pro的开源模型。”

我愿敬称为新一代源神。

在AIME 2024逻辑数学题目上(偏奥数思维)和LiveCodeBench编程题上、还有SWE-bench Verified(真实世界代码补全+修改),MiniMax M1的表现只能说中规中矩,有弱的、有强的。

而TAU-bench(需要理解任务目标、推理动机的场景),M1 准确率62.8%,开始媲美开源模型。

但是,最离谱的来了,最后一个,MRCR(4-needle)。

这个直接,屠榜了,真的就一瞬间,一柱擎天,直接跟Gemini2.5Pro肩并肩,我相信用过Gemini 2.5 pro的伙伴,都知道,这玩意的上下文有多离谱,而现在,MiniMax M1作为一个开源的大模型,首次,在这个评测集上,能跟Gemini 2.5 Pro并驾齐驱了。

我特么。。。

很多人不知道MRCR(4-needle)是个啥,我简单解释一下。

AI圈之前一直有一个测上下文能力的测试,叫做“大海捞针”。

我23年的这个测试刚出来的时候我就写过:

X上一个大佬Greg Kamradt,为了弄明白当年Claude2.1的200K Token,究竟实测效果怎么样,就调用Claude 的API做了个压力测试,从一段不同长度的文本中,捞出特定的信息,而这个测试,花了他1000美金。

这图我现在还有。

Claude-2.1当时红了一片,200K几乎没有蛋用,巨水无比。

而那一次,Kimi在我的文章下留言,说自己内部测了一下,全绿。

后面的故事,大家也就都知道了。

后来呢,Gemini觉得这个大海捞针测试太初级了,于是自己搓了一个新的测试方法,叫做Michelangelo。

在这个论文里,他们提出了Michelangelo的几个评估任务,有Latent List、IDK,而第三个,就是MRCR。

全称叫Multi-Round Co-reference Resolution,翻译成中文叫多轮共指消解,反正非常拗口。

它主要考察一个模型在处理较长的、多轮对话时,能否准确地理解和区分用户要求中具体指的是哪一次对话、哪一个内容。

比如用户和AI进行了一系列对话,用户要求AI写一些东西,比如诗、谜语、文章。在这些对话中,会刻意插入多个看起来类似的话题(比如多首关于企鹅的诗)。

这个事其实不简单,因为对话很长,涉及多个话题和文体,非常考验模型的上下文理解力。

有些内容在主题和格式上极其相似,比如“关于企鹅的第一首诗”和“关于企鹅的第二首诗”。模型必须能清晰区分、精准回溯。

后面OpenAI在发GPT-4.1的时候,也在blog里面提到,自己魔改了一个难度更高的MRCR的评测集,用来评估模型的上下文性能。

而“4-needle” 指的是,在同一段超长上下文里同时埋下 4 个“针”(关键信息片段),然后在后续对话里以交错的方式把这 4 根针全部翻出来。

在这个任务下,MiniMax-M1,吊打了一切,只跟Gemini 2.5 pro,差了那一点点的距离。

我翻了下技术报告,M1之所以在上下文有这个性能,核心点还是在于他们之前开源的基座模型MiniMax-01。

得益于MiniMax-01 Lightning Attention线性注意力机制的应用,M1的时间和空间复杂度随序列长度增加近似线性增长,不像传统Transformer那样呈平方级膨胀。

因为Lightning Attention机制,在推理生成长度64K token时,FLOPs消耗不到DeepSeek R1的一半。

当生成长度达到100K token时,M1仅消耗其约25%的FLOPs。

非常的离谱。

而这个MiniMax-M1,跟之前开源的基座模型MiniMax-01一样,也是456B参数,MoE架构,实际激活45.9B。

最长上下文长度为100万字,也就是1M,是DeepSeek-R1的8倍。

这次开源了两个上下文长度的推理模型,40K和80K。

80K版本是在40K版本基础上进一步训练得到的增强版本。

这里注意一下,80K和40K指的不是上下文长度,上下文长度是1M,80K和40K指的是Extended Thinking的上限。

GitHub: https://github.com/MiniMax-AI/MiniMax-M1

Hugging Face:https://huggingface.co/spaces/MiniMaxAI/MiniMax-M1

目前在MiniMax的官网上也上线了。

网址在此,可以直接用。

https://chat.minimaxi.com/

我也第一时间,上去测了一下。

我的第一个任务,就让我开了眼,因为我只是,小小的尝试一下,没想到效果,比我预期的还要好,我直接把MiniMax-M1的技术报告扔了进去,让它,给我逐字翻译。

现在看着还比较正常对吧。

但是,马上,离谱的事情来了。

他居然把图,也给我...带出来了。。。

甚至不仅有图,还有,公式。

还把表格,直接拎出来翻译了。

这效果,这体验,真的无敌。

虽然中间,有部分的图表丢失,还没有达到100%的完整度,但是这个效果,也已经非常非常好了,关键的是文字,一个不落,全部都整整齐齐的给我翻译出来了。

最搞笑的是,他还自作主张,在最后,可能觉得参考文献翻译出来没什么用,直接自己给省略了。

我说实话,这个参考文献,占了5页,对我来说,确实没啥用。。。

在翻译上,我又试了一个更有趣的场景,我扔了一个文档过去,然后说:

“翻译成中文,在括号里标注一些符合我英语水平的原文英文词汇或短语。我英语水平是大学六级。”

太有意思了,这个上下文准确性,是真的牛逼。

然后我又做了一个测试,把我群里这一周的聊天记录,导出出去也扔给了MiniMax-M1,让他把绛烨的聊天记录都找出来。

这些链接,是真的能点的,我惊了,他还做了样式重构。。。

因为超长超准的上下文,你还可以,跟大模型玩一局,真正的文字冒险游戏,因为他不会忘记你的出身,他会记得,一切。

推理模型+超长且精准上下文的扩充,确实会带来,很多不一样的花活玩法。

比如我还有一个特别狠的测试。

就是我手上有一个34个刘慈欣老师的小说的合集,因为大刘除了世人皆知的三体之外,他其实还写过特别多的科幻中短篇小说,也特别好看。

比如我最爱的《山》。

我现在,想把这些故事,安利给我的朋友们,我想,让AI根据这34个故事,每一个故事都写一段故事总结+推荐语。

这个任务,你要是扔给DeepSeek。

你就会得到一个非常离谱的提示,DeepSeek只阅读了8%。。。

而MiniMax-M1,出色的完成了任务。

超长上下文的魅力,此时体现的淋漓尽致。

不过我有一个更变态的任务,还是给MiniMax-M1干宕机了。

就是...我让它数本草纲目里一共有多少药材= =

数了8分钟,最后跟我说,有400中种,但其实答案是1892种= =

不过我也能理解,这个任务,确实实在是太变态了。。。

除了上下文之外,我也测了些写作、编程、数学。

写作和数学就不详细提了,写作这块中规中矩,数学的高考题实在没空完整做了,我觉得我需要抽空写一个脚本。

不过测了两道大题,目前是都对的。

最后稍微吐槽一下编程这块,就是前端审美,感觉还是有一些进步空间的。

就...有一点,不好看啊。

比如我昨天下午去参加了飞书多维表格的闭门会,会议特别有价值,我想做个可视化网页。

这是Gemini生成的。

这是M1生成的。

咱就是说,可以不这么直男审美的= =

总体来说,M1模型,还是让我有一点惊喜的,他们自己的新研究,确实卷出了一些很有意思的特性,也把开源领域的模型水平,又拔高了一个层级。

还有4天时间,我现在有点期待MiniMax会继续掏出什么有意思的大货了。

以我对MiniMax的了解,视频模型总归要来一个的吧,已经有一段时间没更新了,Video 01-Director已经是几个月前的事了。

你Hailuo 02(0616)都去打榜了,那你这5天里,得掏一下吧。

海螺的人物情绪表演、动作表演,至今依然是我心中的白月光。

极度期待Hailuo 02,在人物表演上,会带给我什么样的震撼。

声音模型估计不发新的了,因为一个月前Speech-02才发。

图片和3DMiniMax不做,那在掏个音乐模型?这个符合MiniMax的气质。

这一周,希望MiniMax尽情撒货吧。

让AI的这一把火。

烧的更热烈些。

相关内容

阿里一口气开源32款Qwe...
智东西 作者 | ZeR0 编辑 | 漠影 智东西6月17日报道,...
2025-06-17 14:12:13
MiniMax深夜开源!首...
智东西 作者 | 程茜 编辑 | 心缘 智东西6月17日报道,今日...
2025-06-17 13:43:17
MiniMax深夜开源首个...
不知道还有多少人记得,AI行业的六小虎。 行业内都在说,他们已经寂...
2025-06-17 12:12:44
高考报志愿别只看一个AI,...
2025年高考,AI凭借强大的数据处理和智能分析能力,成为志愿填报...
2025-06-17 11:42:12
AI刹住了浪潮信息下坡
文|刘旷 不论是营收,还是净利润,浪潮信息都出现了连续几年的增速...
2025-06-17 09:42:18
Adobe Researc...
这项由Adobe Research的黄迅、李政奇、Eli Shec...
2025-06-16 20:42:44

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...