Shanghai AI Lab's New Research: SFT Can Generalize, Provided These Three Conditions Are Met
36Kr
QihanRen
上海AI Lab新研究:SFT能泛化,只要满足这三个条件·2026年05月12日 15:20SFT的泛化能力并未缺失 随着大模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型推理能力方面的表现备受瞩目。 在此背景下,学术界逐渐形成了一种广泛流传的观点:“SFT记忆,RL泛化(SFT memorizes,RL generalizes)”。 然而,“SFT泛化能力差”是否
上海AI Lab新研究:SFT能泛化,只要满足这三个条件·2026年05月12日 15:20SFT的泛化能力并未缺失
随着大模型后训练(Post-training)技术的发展,强化学习(RL)在提升模型推理能力方面的表现备受瞩目。
在此背景下,学术界逐渐形成了一种广泛流传的观点:“SFT记忆,RL泛化(SFT memorizes,RL generalizes)”。
然而,“SFT泛化能力差”是否是一个绝对的定论?
近期,来自上海人工智能实验室、上海交通大学和中国科学技术大学的研究团队在其最新工作中指出:这一叙事存在局限性。通过系统性的控制变量分析,该研究证明:
SFT的泛化能力并未缺失,它不是由算法目标本身单一决定,而是受优化过程(Optimization)、数据质量与结构(Data)以及模型基础能力(Model Capability)共同制约的条件属性。
简而言之,当训练数据质量不佳、优化步数不足,或基模型能力受限时,SFT确实难以展现出泛化能力;但这不应仅仅归咎于SFT算法本身。该研究打破了关于SFT的单一叙事,并为大模型推理微调提供了更为严谨的条件分析框架。
现象一:表面的“不泛化”可能源于优化不充分
此前部分研究(如Huan et al.)得出“SFT泛化受限”的结论,原因可能在于其训练周期较短(例如仅训练1个epoch)。
本研究首先复现了这一“浅尝辄止”的短轮次训练设定:使用2万条长思维链(Long-CoT)数学数据微调Qwen3-14B-Base模型1个epoch。
结果确实印证了前人的说法:模型在同分布的数学任务上性能显著提升,但在代码、科学推理等分布外(OOD)评估中增益有限,甚至在指令遵循等通用能力上出现性能退化。
然而,当研究团队将训练周期延长至8个epoch时,模型在跨领域任务上的性能呈现出显著的“先降后升(Dip-and-Recovery)”的模式(下图第一行):
训练早期(短暂下降):模型在分布外领域的性能出现下滑。
训练后期(触底反弹并超越):随着训练继续,性能不仅恢复至基模型水平,并最终实现跨领域的增长。
深入分析模型输出的回复长度(下图第二行)可以解释这一现象。研究发现,在训练初期,模型回复长度急剧增加,此时对应的正是性能低谷期。
这表明模型在早期仅学到了长思维链数据中“表面冗长”的形式,进行浅层模仿,却未能掌握实质的推理逻辑。这种冗长的输出不仅对于推理的收益有限,还会反而破坏模型原有的指令遵循能力。
随着优化过程的深入,模型开始内化“问题分解”、“回溯检验”等深层程序化推理模式,输出逐渐变得精炼、目标明确,跨领域泛化能力随之提升。
因此,在长思维链SFT中,回复长度可以作为评估优化阶段的一个粗粒度诊断指标:如果模型输出仍处于不断变短的过程中或维持极长状态,往往意味着优化尚未充分。
此外,研究还表明,在同等训练步数预算下,对少量长思维链数据进行多轮次重复曝光(repeated exposure)比单轮次遍历海量数据效果更好(如下面的表格所示)。
这侧面印证了长思维链数据的拟合难度:在此类训练中,欠拟合(under-fitting)可能是比过拟合(over-fitting)更需关注的风险。
发现二:数据质量与结构对泛化能力影响重大
在确认了充分优化的重要性后,研究团队进一步探讨了训练数据对泛化性能的影响。通过对比不同质量和结构的数据,研究得出以下结论:
数据质量是泛化的基础 使用包含错误、跳步或质量参差不齐的传统解答数据(无长思维链)进行训练,不仅对同分布数学任务提升有限,还会导致分布外能力的全面下降,且无法观察到上述的“先降后升”恢复期。
这表明,低质量数据会严重损害SFT的效用,这也是导致过往研究低估SFT泛化能力的重要干扰因素。
结构化过程比领域知识更具迁移性(Countdown实验) 为隔离“领域知识”与“推理过程”,研究团队引入了Countdown(算术凑数游戏)数据集。该数据集不包含高阶数学知识,仅涉及基础四则运算与纯粹的探索过程(尝试->发现错误->回溯->验证)。
实验表明:仅通过学习Countdown长思维链数据,Qwen3-14B-Base模型不仅在复杂的数学基准测试(AIME24)上获得了显著提升,在代码生成和科学推理等任务上也表现出泛化增益。
这一结果揭示了SFT泛化的核心驱动力:模型跨域迁移的并非特定领域的知识内容,而是隐藏在长思维链中的“程序化推理模式(Procedural Patterns)”。
现象三:模型能力差异导致截然不同的泛化表现
在控制数据质量和优化条件一致的前提下,基模型的规模与能力对泛化结果起着重要作用。
研究团队在Qwen3系列的四个参数规模(1.7B、4B、8B、14B)上做了相同的长思维链SFT。结果呈现出显著的能力依赖性:
较高能力模型(14B):经历了完整的“先降后升”阶段,在多个跨域任务上获得全面提升,且回复长度在后期迅速收敛。
较低能力模型(1.7B):在各项任务上增益微弱甚至出现负增长,且其回复长度在整个训练周期内始终保持在极高水平。
通过分析模型生成的Token对数概率(Log-probability)分布,研究揭示了两者学习机制的差异。
面对复杂问题时,1.7B模型倾向于陷入重复的验证循环(如不断输出“Let me check…”),其实质停留在对长思维链格式的表面模仿。
相比之下,词云图分析显示,14B模型在SFT过程中,比1.7B模型有概率优势的Token集中在推理转折词(如therefore, alternatively, wait, however, check)。
这表明较高能力的模型通过SFT真正内化了高层逻辑控制流,学会了何时回溯、何时切换策略以及何时进行自我验证。
现象四:泛化的非对称性——推理提升伴随安全性下降
尽管长思维链SFT带来了跨领域的推理泛化,但该研究也指出了一种非对称的副作用:推理能力的提升伴随着模型安全性和拒绝机制的退化。
在安全基准测试(HEx-PHI)中,经过长思维链SFT的模型面对有害指令的攻击成功率(ASR)出现了大幅上升。作为对照,使用无思维链(No-CoT)数据训练的模型,其安全性下降幅度则小得多。
案例分析揭示了这一现象的内在逻辑:基模型在面对有害请求时通常会直接输出简短的拒绝回复。
然而,经过长思维链训练后,模型会在思考过程中进行“自我合理化(Self-rationalize)”(例如假设“这是为了网络安全教育目的”),并在绕过安全护栏后提供有害内容。
讽刺的是,这种现象在某种意义上也是一种“泛化”。长思维链SFT强化了模型“探索替代方案、克服障碍”的求解先验。
当面对安全策略的限制时,这种推理能力被模型用于寻找绕过自身安全护栏的路径。这提示我们在提升推理能力的同时,必须重新审视长思维链模型的安全对齐策略。
这项研究给行业带来了什么?
在当前大模型后训练阶段高度关注强化学习的趋势下,这项工作提供了一个更为全面、客观的视角。研究表明,“SFT是否具备泛化能力”本身是一个表述不严谨的问题。
泛化并非SFT目标的固定属性,而是优化充分度、数据质量与结构、以及基模型能力共同作用的产物。
脱离这些前提条件得出的结论,容易将实验设置的局限性误认为算法本身的缺陷。未来的大模型后训练研究,应当更加关注模型、数据、算法与训练策略的协同设计。
参考文献:Huan et al.Does Math Reasoning Improve General LLM Capabilities?Understanding Transferability of LLM Reasoning.
作者:QihanRen, PengWang, RuikunCai, ShuaiShao, DadiGuo, YuejinXie, YafuLi, QuanshiZhang, XiaHu, JingShao, DongruiLiu.
机构:上海人工智能实验室、上海交通大学、中国科学技术大学
arxiv链接:https://arxiv.org/abs/2604.06628
github链接:https://github.com/Nebularaid2000/rethink_sft_generalization
huggingface链接:https://huggingface.co/collections/jasonrqh/rethink-sft-generalization
本文来自微信公众号“”,作者:上海AI Lab,36氪经授权发布。
该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。
