Shanghai Jiao Tong University x vivo Team: A Simple Modification Boosts Diffusion Models Across the Board | CVPR 2026

Leiphone

雷锋网

Apr 22, 2026, 03:04 AM

很多人第一次觉得图像生成模型已经足够强，往往是在它能快速画出一张看上去不错的图的时候。但真正开始频繁使用之后，又会慢慢发现另一面。比如做一张活动主视觉，前几次生成里主体、色调、氛围都对了，可一放大细节就会发现手部、材质、边缘关系经不起看。再比如给一篇文章配封面，模型明明理解了主题，却总在最后呈现时把重点元素放错位置，或者让画面风格和语义之间出现轻微但难以忽视的偏差。这正是当前生成式 AI 进入大规模应用之后，行业越来越在意的一类问题。今天的 diffusion 模型已经不缺生成能力，缺的是更稳定、更可控、也更符合真实使用过程的生成机制。过去几年，行业主要依靠更大的模型、更多的数据和更强的算力推动效果上升，但当模型能力不断逼近高位之后，很多问题开始不再表现为能不能生成，而是能不能稳定地生成对。换句话说，竞争的重点正在从模型会不会画，转向模型能不能在每一步都朝着正确方向画。这个变化非常关键，因为它意味着生成模型的发展正在从规模驱动走向机制驱动。在这个背景下，来自上海交通大学与 vivo BlueImage Lab 的研究团队提出了《C²FG Control Classifier