这次,AI终于稳稳接住「马嘉祺」
创始人
2026-05-09 19:46:39
0

AIPress.com.cn报道

前有GPT每天都“稳稳接住你”,后有MiniMax不会说“马嘉祺”

如果你让MiniMax介绍下时代少年团,它可以精准回答出时代少年团是什么团体、团队有哪些经历,从出道时间到代表作品,都说得头头是道。

可偏偏被问到“队长马嘉祺是谁”的时候,它能给你一堆人名,但就是说不出“马嘉祺”。

给了它“马嘉祺”三个字,也能换成“马俊杰”、“马息肉”。

其实这已经是MiniMax-2.5时期发生的事情了,到了2.7版本,“马嘉祺”三个字就已经能宣之于口了,但这道谜题却始终没有答案。

今天,MiniMax官方终于给出了解释。

模型不是“不认识”,而是“没记住”

大模型的训练分为两个阶段,第一阶段是预训练,在这个阶段,模型会阅读大量的文本,帮助他们掌握知识;第二阶段是后训练,需要用筛选后的数据教模型怎么聊天、怎么遵循指令。

很多人一开始猜测,是不是模型在预训练时就没见过马嘉祺的相关信息?

但排查结果很快推翻了这个猜想。

MiniMax的工程师们调取了模型的分词记录,发现“马嘉祺”被切分成了两个token,“马”和“嘉祺”。“嘉祺”确实是作为一个独立的token存在着。

通过检测这个token的向量分布,我们可以看到它完全处于正常范围。这就说明,在预训练阶段,模型记住了“嘉祺”这个token。

而且,在大模型与用户的对话中,我们也能发现,它知道马嘉祺的身份和基本信息,就只是说不出名字。

为了进一步验证,工程师们用未经后训练的基础模型做测试,发现只要稍加引导,模型就能顺利说出“马嘉祺”;可换成经过监督微调(SFT)的后训练模型,就又陷入了“说不出”的困境。

所以,问题不在“认知”层面,而在“表达”层面。模型懂马嘉祺是谁,只是忘了怎么把“嘉祺”这两个字说出来。

罪魁祸首:后训练里的“低频遗忘”

既然预训练没问题,那问题就一定出在后训练阶段。

工程师们统计后发现,在用于微调模型的对话数据(SFT数据)中,包含“嘉祺”这个token的样本,竟然不足5条

这就导致后训练过程中,“嘉祺”这个token几乎没有被模型练习过

而其他频繁出现的token会持续更新自己周围的向量空间,渐渐地就把“嘉祺”这种没被练到的低频token给挤跑了开始和大量无关的token 混在一起。

预训练时,“嘉祺”的邻近token都是“亚轩”“肖战”这类人名。可在后训练过程中,这个token的lm_head(控制模型最终生成的输出端)方向发生了显著偏移,周围被各种无关的特殊标记、编码噪声占据。原本的语义空间被挤压,导致模型想输出“嘉祺”时,要么找不到正确的token,要么被发音相近的“佳琪”“琪琪”这种练习过的token替代。

这就好比我们学外语,某个单词只在课本上见过一次,平时完全不用,时间久了自然就忘了怎么读、怎么写。

说不出的,不止有“嘉祺”

随后,工程师们对词表中约20万token做了全量扫描,发现有4.9%的token 发生了显著退化。

它们和“嘉祺”的退化机制一样,都是在预训练学会了,到了后训练的时候没被练到,大模型就给忘了。

这些退化的token除了有预训练阶段的特殊标记(如代码填充符号)LaTeX 公式与维基百科源码标记中文 SEO垃圾内容,还有日文口语和博客模板表达,而这个板块居然占到了整个退化token的40%.

由此,工程师们又解开了MiniMax大模型的另一个谜题:日语对话中,模型回答时混入的俄语和韩语字符。

他们按语种统计了 token 退化比例,其中29.7% 的日语 token 发生了显著退化。而中文、英文、韩语、俄语的退化比例都不到4%。

所以,在后训练过程中,日语的内容覆盖率严重不足,日语token参数发生了偏移,和其他语言的token在向量空间中混杂在了一起。

这会引发大模型在输出答案时出现两个问题。一是日语在不该出现的地方出现了,和其他语言混在一起;二是与其空间相邻的低频中文token被大模型忘掉了。

熟读“嘉祺”500遍

为了解决这个问题,MiniMax的工程师们构造了一份“全词表覆盖合成数据”。

他们把词表里的20多万个token随机分批,每批约8000个,然后构造对话样本,指令是“请重复以上内容”,让模型进行“复读训练”。整个合成数据只有500条,仅占总SFT数据量的1%,却能确保每个token至少被训练20次,相当于给所有token做了一次“保底校准”。

效果立竿见影,日语对话中混入俄文字符的比例从47%骤降至1%,“马嘉祺”能被正常输出,那些此前被错误替换的低频词,也全部恢复正常。

输入重要,输出也重要

说不出口的“嘉祺”反映出一个长久以来都被忽略的关键问题。后训练不仅会优化对话能力,还会重塑整个词表的输出空间。那些在预训练中学得不错的长尾token,只要在后训练中没有足够的出场机会,就可能在沉默中被“遗忘”。

模型的输入层负责理解语义,输出层负责生成文字,一旦后训练数据分布不均,就可能出现“懂却不会说”的裂缝。

相关内容

当AI学会了“删库跑路”,...
“一场Agent删库事故,意外揭开数据库体系的AI重构进程 202...
2026-05-09 19:47:42
这次,AI终于稳稳接住「马...
AIPress.com.cn报道 前有GPT每天都“稳稳接住你”,...
2026-05-09 19:46:39
蚂蚁百灵正式开源Ling-...
4月29日,蚂蚁百灵大模型宣布Ling-2.6-flash正式开源...
2026-05-09 18:22:34
中信科智联申请AI模型输入...
国家知识产权局信息显示,中信科智联科技有限公司申请一项名为“AI模...
2026-05-09 18:22:14
天润云(02167.HK)...
【财华社讯】天润云(02167.HK)公布,2026年第一季度,集...
2026-05-09 16:20:54

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...