这次，AI终于稳稳接住「马嘉祺」_linux资讯

这次，AI终于稳稳接住「马嘉祺」

创始人

2026-05-09 19:46:39

0次

AIPress.com.cn报道

前有GPT每天都“稳稳接住你”，后有MiniMax不会说“马嘉祺”。

如果你让MiniMax介绍下时代少年团，它可以精准回答出时代少年团是什么团体、团队有哪些经历，从出道时间到代表作品，都说得头头是道。

可偏偏被问到“队长马嘉祺是谁”的时候，它能给你一堆人名，但就是说不出“马嘉祺”。

给了它“马嘉祺”三个字，也能换成“马俊杰”、“马息肉”。

其实这已经是MiniMax-2.5时期发生的事情了，到了2.7版本，“马嘉祺”三个字就已经能宣之于口了，但这道谜题却始终没有答案。

今天，MiniMax官方终于给出了解释。

模型不是“不认识”，而是“没记住”

大模型的训练分为两个阶段，第一阶段是预训练，在这个阶段，模型会阅读大量的文本，帮助他们掌握知识；第二阶段是后训练，需要用筛选后的数据教模型怎么聊天、怎么遵循指令。

很多人一开始猜测，是不是模型在预训练时就没见过马嘉祺的相关信息？

但排查结果很快推翻了这个猜想。

MiniMax的工程师们调取了模型的分词记录，发现“马嘉祺”被切分成了两个token，“马”和“嘉祺”。“嘉祺”确实是作为一个独立的token存在着。

通过检测这个token的向量分布，我们可以看到它完全处于正常范围。这就说明，在预训练阶段，模型记住了“嘉祺”这个token。

而且，在大模型与用户的对话中，我们也能发现，它知道马嘉祺的身份和基本信息，就只是说不出名字。

为了进一步验证，工程师们用未经后训练的基础模型做测试，发现只要稍加引导，模型就能顺利说出“马嘉祺”；可换成经过监督微调（SFT）的后训练模型，就又陷入了“说不出”的困境。

所以，问题不在“认知”层面，而在“表达”层面。模型懂马嘉祺是谁，只是忘了怎么把“嘉祺”这两个字说出来。

罪魁祸首：后训练里的“低频遗忘”

既然预训练没问题，那问题就一定出在后训练阶段。

工程师们统计后发现，在用于微调模型的对话数据（SFT数据）中，包含“嘉祺”这个token的样本，竟然不足5条。

这就导致后训练过程中，“嘉祺”这个token几乎没有被模型练习过。

而其他频繁出现的token会持续更新自己周围的向量空间，渐渐地就把“嘉祺”这种没被练到的低频token给挤跑了，开始和大量无关的token 混在一起。

预训练时，“嘉祺”的邻近token都是“亚轩”“肖战”这类人名。可在后训练过程中，这个token的lm_head（控制模型最终生成的输出端）方向发生了显著偏移，周围被各种无关的特殊标记、编码噪声占据。原本的语义空间被挤压，导致模型想输出“嘉祺”时，要么找不到正确的token，要么被发音相近的“佳琪”“琪琪”这种练习过的token替代。

这就好比我们学外语，某个单词只在课本上见过一次，平时完全不用，时间久了自然就忘了怎么读、怎么写。

说不出的，不止有“嘉祺”

随后，工程师们对词表中约20万token做了全量扫描，发现有4.9%的token 发生了显著退化。

它们和“嘉祺”的退化机制一样，都是在预训练学会了，到了后训练的时候没被练到，大模型就给忘了。

这些退化的token除了有预训练阶段的特殊标记（如代码填充符号）、LaTeX 公式与维基百科源码标记、中文 SEO垃圾内容，还有日文口语和博客模板表达，而这个板块居然占到了整个退化token的40%.

由此，工程师们又解开了MiniMax大模型的另一个谜题：日语对话中，模型回答时混入的俄语和韩语字符。

他们按语种统计了 token 退化比例，其中，29.7% 的日语 token 发生了显著退化。而中文、英文、韩语、俄语的退化比例都不到4%。

所以，在后训练过程中，日语的内容覆盖率严重不足，日语token参数发生了偏移，和其他语言的token在向量空间中混杂在了一起。

这会引发大模型在输出答案时出现两个问题。一是日语在不该出现的地方出现了，和其他语言混在一起；二是与其空间相邻的低频中文token被大模型忘掉了。

熟读“嘉祺”500遍

为了解决这个问题，MiniMax的工程师们构造了一份“全词表覆盖合成数据”。

他们把词表里的20多万个token随机分批，每批约8000个，然后构造对话样本，指令是“请重复以上内容”，让模型进行“复读训练”。整个合成数据只有500条，仅占总SFT数据量的1%，却能确保每个token至少被训练20次，相当于给所有token做了一次“保底校准”。

效果立竿见影，日语对话中混入俄文字符的比例从47%骤降至1%，“马嘉祺”能被正常输出，那些此前被错误替换的低频词，也全部恢复正常。

输入重要，输出也重要

说不出口的“嘉祺”反映出一个长久以来都被忽略的关键问题。后训练不仅会优化对话能力，还会重塑整个词表的输出空间。那些在预训练中学得不错的长尾token，只要在后训练中没有足够的出场机会，就可能在沉默中被“遗忘”。

模型的输入层负责理解语义，输出层负责生成文字，一旦后训练数据分布不均，就可能出现“懂却不会说”的裂缝。

马嘉祺向量日语 MiniMax 输出模型训练词表 token 对话时代少年团嘉祺

上一篇：吴伟志：AI是当代最大机遇，未来所有商品都将AI化

下一篇：全球大模型收费对比，AI免费时代终结？

这次，AI终于稳稳接住「马嘉祺」

相关内容

热门资讯