Shanghai AI Lab's New Research: SFT Can Generalize, Provided These Three Conditions Are Met

上海AI Lab新研究：SFT能泛化，只要满足这三个条件·2026年05月12日 15:20SFT的泛化能力并未缺失随着大模型后训练（Post-training）技术的发展，强化学习（RL）在提升模型推理能力方面的表现备受瞩目。在此背景下，学术界逐渐形成了一种广泛流传的观点：“SFT记忆，RL泛化（SFT memorizes,RL generalizes）”。然而，“SFT泛化能力差”是否是一个绝对的定论？近期，来自上海人工智能实验室、上海交通大学和中国科学技术大学的研究团队在其最新工作中指出：这一叙事存在局限性。通过系统性的控制变量分析，该研究证明： SFT的泛化能力并未缺失，它不是由算法目标本身单一决定，而是受优化过程（Optimization）、数据质量与结构（Data）以及模型基础能力（Model Capability）共同制约的条件属性。简而言之，当训练数据质量不佳、优化步数不足，或基模型能力受限时，SFT确实难以展现出泛化能力；但这不应仅仅归咎于SFT算法本身。该研究打破了关于SFT的单一叙事，并为大模型推理微调提供了更为严谨的条件分析框架。现象一：表面的“不泛化”可能源于优化不充分此前部分研究（如Huan et al.）得出“SFT泛化受限”的结论，原因可能在于其训练周期较短（例如仅训练1个epoch）。本研究首先复现了这一“浅尝辄止”的短轮次训练设定：使用2万条长思维链（Long-CoT）数学数据微调Qwen3-14B-Base模型1个epoch。结果确实印证了前人的说法：模型在同分布的数学任务上性能显著提升，但在代码、科学推理等分布外（OOD）评估中增益有限，甚至在指令遵循等通用能力上出现性能退化。然而，当研究团队将训练周期延长至8个epoch时，模型在跨领域任务上的性能呈现出显著的“先降后升（Dip-and-Recovery）”的模式（下图第一行）：训练早期（短暂下降）：模型在分布外领域的性能出现下滑。训练后期（触底反弹并超越）：随着训练继续，性能不仅恢复至基模型水平，并最终实现跨领域的增长。深入分析模型输出的回复长度（下图第二行）可以解释这一现象。研究发现，在训练初期，模型回复长度急剧增加，此时对应的正是性能低谷期。这表明模型在早期仅学到了长思维链数据中“表面冗长”的形式，进行浅层模仿，却未能掌握实质的推理逻辑。这种冗长的输出不仅对于推理的收益有限，还会反而破坏模型原有的指令遵循能力。随着优化过程的深入，模型开始内化“问题分解”、“回溯检验”等深层程序化推理模式，输出逐渐变得精炼、目标明确，跨领域泛化能力随之提升。因此，在长思维链SFT中，回复长度可以作为评估优化阶段的一个粗粒度诊断指标：如果模型输出仍处于不断变短的过程中或维持极长状态，往往意味着优化尚未充分。此外，研究还表明，在同等训练步数预算下，对少量长思维链数据进行多轮次重复曝光（repeated exposure）比单轮次遍历海量数据效果更好（如下面的表格所示）。这侧面印证了长思维链数据的拟合难度：在此类训练中，欠拟合（under-fitting）可能是比过拟合（over-fitting）更需关注的风险。发现二：数据质量与结构对泛化能力影响重大在确认了充分优化的重要性后，研究团队进一步探讨了训练数据对泛化性能的影响。通过对比不同质量和结构的数据，研究得出以下结论：数据质量是泛化的基础　使用包含错误、跳步或质量参差不齐的传统解答数据（无长思维链）进行训练，不仅对同分布数学任务提升有限，还会导致分布外能力的全面下降，且无法观察到上述的“先降后升”恢复期。这表明，低质量数据会严重损害SFT的效用，这也是导致过往研究低估SFT泛化能力的重要干扰因素。结构化过程比领域知识更具迁移性（Countdown实验）　为隔离“领域知识”与“推理过程”，研究团队引入了Countdown（算术凑数游戏）数据集。该数据集不包含高阶数学知识，仅涉及基础四则运算与纯粹的探索过程（尝试->发现错误->回溯->验证）。实验表明：仅通过学习Countdown长思维链数据，Qwen3-14B-Base模型不仅在复杂的数学基准测试（AIME24）上获得了显著提升，在代码生成和科学推理等任务上也表现出泛化增益。这一结果揭示了SFT泛化的核心驱动力：模型跨域迁移的并非特定领域的知识内容，而是隐藏在长思维链中的“程序化推理模式（Procedural Patterns）”。现象三：模型能力差异导致截然不同的泛化表现在控制数据质量和优化条件一致的前提下，基模型的规模与能力对泛化结果起着重要作用。研究团队在Qwen3系列的四个参数规模（1.7B、4B、8B、14B）上做了相同的长思维链SFT。结果呈现出显著的能力依赖性：较高能力模型（14B）：经历了完整的“先降后升”阶段，在多个跨域任务上获得全面提升，且回复长度在后期迅速收敛。较低能力模型（1.7B）：在各项任务上增益微弱甚至出现负增长，且其回复长度在整个训练周期内始终保持在极高水平。通过分析模型生成的Token对数概率（Log-probability）分布，研究揭示了两者学习机制的差异。面对复杂问题时，1.7B模型倾向于陷入重复的验证循环（如不断输出“Let me check…”），其实质停留在对长思维链格式的表面模仿。相比之下，词云图分析显示，14B模型在SFT过程中，比1.7B模型有概率优势的Token集中在推理转折词（如therefore, alternatively, wait, however, check）。这表明较高能力的模型通过SFT真正内化了高层逻辑控制流，学会了何时回溯、何时切换策略以及何时进行自我验证。现象四：泛化的非对称性——推理提升伴随安全性下降尽管长思维链SFT带来了跨领域的推理泛化，但该研究也指出了一种非对称的副作用：推理能力的提升伴随着模型安全性和拒绝机制的退化。在安全基准测试（HEx-PHI）中，经过长思维链SFT的模型面对有害指令的攻击成功率（ASR）出现了大幅上升。作为对照，使用无思维链（No-CoT）数据训练的模型，其安全性下降幅度则小得多。案例分析揭示了这一现象的内在逻辑：基模型在面对有害请求时通常会直接输出简短的拒绝回复。然而，经过长思维链训练后，模型会在思考过程中进行“自我合理化（Self-rationalize）”（例如假设“这是为了网络安全教育目的”），并在绕过安全护栏后提供有害内容。讽刺的是，这种现象在某种意义上也是一种“泛化”。长思维链SFT强化了模型“探索替代方案、克服障碍”的求解先验。当面对安全策略的限制时，这种推理能力被模型用于寻找绕过自身安全护栏的路径。这提示我们在提升推理能力的同时，必须重新审视长思维链模型的安全对齐策略。这项研究给行业带来了什么？在当前大模型后训练阶段高度关注强化学习的趋势下，这项工作提供了一个更为全面、客观的视角。研究表明，“SFT是否具备泛化能力”本身是一个表述不严谨的问题。泛化并非SFT目标的固定属性，而是优化充分度、数据质量与结构、以及基模型能力共同作用的产物。脱离这些前提条件得出的结论，容易将实验设置的局限性误认为算法本身的缺陷。未来的大模型后训练研究，应当更加关注模型、数据、算法与训练策略的协同设计。参考文献：Huan et al.Does Math Reasoning Improve General LLM Capabilities?Understanding Transferability of LLM Reasoning. 作者：QihanRen, PengWang, RuikunCai, ShuaiShao, DadiGuo, YuejinXie, YafuLi, QuanshiZhang, XiaHu, JingShao, DongruiLiu. 机构：上海人工智能实验室、上海交通大学、中国科学技术大学 arxiv链接：https://arxiv.org/abs/2604.06628 github链接：https://github.com/Nebularaid2000/rethink_sft_generalization huggingface链接：https://huggingface.co/collections/jasonrqh/rethink-sft-generalization 本文来自微信公众号“”，作者：上海AI Lab，36氪经授权发布。该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。