AIPress.com.cn报道
前有GPT每天都“稳稳接住你”,后有MiniMax不会说“马嘉祺”。
如果你让MiniMax介绍下时代少年团,它可以精准回答出时代少年团是什么团体、团队有哪些经历,从出道时间到代表作品,都说得头头是道。
可偏偏被问到“队长马嘉祺是谁”的时候,它能给你一堆人名,但就是说不出“马嘉祺”。
给了它“马嘉祺”三个字,也能换成“马俊杰”、“马息肉”。
其实这已经是MiniMax-2.5时期发生的事情了,到了2.7版本,“马嘉祺”三个字就已经能宣之于口了,但这道谜题却始终没有答案。
今天,MiniMax官方终于给出了解释。
模型不是“不认识”,而是“没记住”
大模型的训练分为两个阶段,第一阶段是预训练,在这个阶段,模型会阅读大量的文本,帮助他们掌握知识;第二阶段是后训练,需要用筛选后的数据教模型怎么聊天、怎么遵循指令。
很多人一开始猜测,是不是模型在预训练时就没见过马嘉祺的相关信息?
但排查结果很快推翻了这个猜想。
MiniMax的工程师们调取了模型的分词记录,发现“马嘉祺”被切分成了两个token,“马”和“嘉祺”。“嘉祺”确实是作为一个独立的token存在着。
通过检测这个token的向量分布,我们可以看到它完全处于正常范围。这就说明,在预训练阶段,模型记住了“嘉祺”这个token。
而且,在大模型与用户的对话中,我们也能发现,它知道马嘉祺的身份和基本信息,就只是说不出名字。
为了进一步验证,工程师们用未经后训练的基础模型做测试,发现只要稍加引导,模型就能顺利说出“马嘉祺”;可换成经过监督微调(SFT)的后训练模型,就又陷入了“说不出”的困境。
所以,问题不在“认知”层面,而在“表达”层面。模型懂马嘉祺是谁,只是忘了怎么把“嘉祺”这两个字说出来。
罪魁祸首:后训练里的“低频遗忘”
既然预训练没问题,那问题就一定出在后训练阶段。
工程师们统计后发现,在用于微调模型的对话数据(SFT数据)中,包含“嘉祺”这个token的样本,竟然不足5条。
这就导致后训练过程中,“嘉祺”这个token几乎没有被模型练习过。
而其他频繁出现的token会持续更新自己周围的向量空间,渐渐地就把“嘉祺”这种没被练到的低频token给挤跑了,开始和大量无关的token 混在一起。
预训练时,“嘉祺”的邻近token都是“亚轩”“肖战”这类人名。可在后训练过程中,这个token的lm_head(控制模型最终生成的输出端)方向发生了显著偏移,周围被各种无关的特殊标记、编码噪声占据。原本的语义空间被挤压,导致模型想输出“嘉祺”时,要么找不到正确的token,要么被发音相近的“佳琪”“琪琪”这种练习过的token替代。
这就好比我们学外语,某个单词只在课本上见过一次,平时完全不用,时间久了自然就忘了怎么读、怎么写。
说不出的,不止有“嘉祺”
随后,工程师们对词表中约20万token做了全量扫描,发现有4.9%的token 发生了显著退化。
它们和“嘉祺”的退化机制一样,都是在预训练学会了,到了后训练的时候没被练到,大模型就给忘了。
这些退化的token除了有预训练阶段的特殊标记(如代码填充符号)、LaTeX 公式与维基百科源码标记、中文 SEO垃圾内容,还有日文口语和博客模板表达,而这个板块居然占到了整个退化token的40%.
由此,工程师们又解开了MiniMax大模型的另一个谜题:日语对话中,模型回答时混入的俄语和韩语字符。
他们按语种统计了 token 退化比例,其中,29.7% 的日语 token 发生了显著退化。而中文、英文、韩语、俄语的退化比例都不到4%。
所以,在后训练过程中,日语的内容覆盖率严重不足,日语token参数发生了偏移,和其他语言的token在向量空间中混杂在了一起。
这会引发大模型在输出答案时出现两个问题。一是日语在不该出现的地方出现了,和其他语言混在一起;二是与其空间相邻的低频中文token被大模型忘掉了。
熟读“嘉祺”500遍
为了解决这个问题,MiniMax的工程师们构造了一份“全词表覆盖合成数据”。
他们把词表里的20多万个token随机分批,每批约8000个,然后构造对话样本,指令是“请重复以上内容”,让模型进行“复读训练”。整个合成数据只有500条,仅占总SFT数据量的1%,却能确保每个token至少被训练20次,相当于给所有token做了一次“保底校准”。
效果立竿见影,日语对话中混入俄文字符的比例从47%骤降至1%,“马嘉祺”能被正常输出,那些此前被错误替换的低频词,也全部恢复正常。
输入重要,输出也重要
说不出口的“嘉祺”反映出一个长久以来都被忽略的关键问题。后训练不仅会优化对话能力,还会重塑整个词表的输出空间。那些在预训练中学得不错的长尾token,只要在后训练中没有足够的出场机会,就可能在沉默中被“遗忘”。
模型的输入层负责理解语义,输出层负责生成文字,一旦后训练数据分布不均,就可能出现“懂却不会说”的裂缝。