MiniMax Doesn't Recognize Ma Jiaqi? Xiyu Technology Explains the Reason for the Large Model's "Speechlessness": Insufficient Post-Training on Specific Tokens

ITHome

IT之家

May 8, 2026, 11:15 PM

IT之家 5 月 9 日消息，在人工智能领域，一个大模型能够准确“复述”特定名词，看似是一项基础能力，却也可能因训练机制的细微偏差而“失灵”。稀宇科技（MiniMax）今日发布官方技术报告，就旗下 M2 系列模型无法正确输出“马嘉祺”等特定人名一事进行了解答，并宣布已通过全词表合成数据覆盖完成性能修复。据介绍，该问题的核心在于大模型处理文字的“分词器”（Tokenizer）机制。与传统逐字处理不同，大模型在读写文本时会先将文字切分为若干“词元”（Token）。在 MiniMax 模型的词表中，“马嘉祺”被切分为“马”和“嘉祺”两个词元。其中，作为一个人名整体，“嘉祺”被合并为一个独立的词元。 IT之家注：大模型训练通常分为两个阶段：预训练阶段接触海量互联网文本，让模型掌握广泛词汇；而后训练（即指令微调）阶段则使用精选对话数据来教会模型如何与人交流。 MiniMax 团队排查发现，在其后训练所使用的对话数据中，含有“嘉祺”一词的样本数量极少。这种数据分布上的稀疏，导致“嘉祺”这一词元在后训练阶段几乎没有得到有效训练。与此同时，大量高频词元（如工具调用标记、编程符号等）在训练中不