为什么 MiniMax 大模型无法识别马嘉祺是谁? (opens in new tab)
mm叶文洁,把火点燃 查看知乎原文 大家好,我是 MiniMax Forge 的 zhongyu。MiniMax M2 系列受到了开发者社区的广泛关注,不少用户在深度使用中发现了一些 corner case——其中「模型无法说出马嘉祺」这个问题在各平台上引发了较多讨论。我们也注意到,社区中有不少开发者对这个现象进行了相当严谨的分析和论证,包括 tokenizer 对比、采样参数测试等。 在内部复现后,我们发现这不是一个孤立的 case——除了「马嘉祺」之外,还有一些其他低频词汇(如「王郸」等)也存在类似现象。社区开发者已经给出了很有价值的分析,但受限于资源,较难进一步深入到模型训练层面进行实验验证。作为模型的开发者,我们认为这个问题背后的原因和机制值得做一次系统的研究,而我们也有条件对比 pretrain 与 SFT 各层参数的变化、分析 lm_head 的退化模式、量化稀疏 token 的遗忘机制,并通过训练实验验证修复方案。 目前此问题已经在内部排查完成,并且在后续模型中更新解决,这条排查线索还帮助我们定位并解决了另一个诟病已久的小语种语言混杂问题。这里将内部的排查过程和实验...
Read the original article