MiniMax Doesn't Recognize Ma Jiaqi? Xiyu Technology Explains the Reason for the Large Model's "Speechlessness": Insufficient Post-Training on Specific Tokens
ITHome
IT之家
IT之家 5 月 9 日消息,在人工智能领域,一个大模型能够准确“复述”特定名词,看似是一项基础能力,却也可能因训练机制的细微偏差而“失灵”。 稀宇科技(MiniMax)今日发布官方技术报告,就旗下 M2 系列模型无法正确输出“马嘉祺”等特定人名一事进行了解答,并宣布已通过全词表合成数据覆盖完成性能修复。 据介绍,该问题的核心在于大模型处理文字的“分词器”(Tokenizer)机制。与传统逐字处理不同,大模型在读写文本时会先将文字切分为若干“词元”(Token)。 在 MiniMax 模型的词表中,“马嘉祺”被切分为“马”和“嘉祺”两个词元。其中,作为一个人名整体,“嘉祺”被合并为一个独立的词元。 IT之家注:大模型训练通常分为两个阶段:预训练阶段接触海量互联网文本,让模型掌握广泛词汇;而后训练(即指令微调)阶段则使用精选对话数据来教会模型如何与人交流。 MiniMax 团队排查发现,在其后训练所使用的对话数据中,含有“嘉祺”一词的样本数量极少。这种数据分布上的稀疏,导致“嘉祺”这一词元在后训练阶段几乎没有得到有效训练。 与此同时,大量高频词元(如工具调用标记、编程符号等)在训练中不
