Tsinghua Duan Yueqi Team Paper: From Parameter Tuning to Control, Text-to-Image Generation Undergoes a Methodological Upgrade丨CVPR 2026

Leiphone

雷锋网

Apr 22, 2026, 02:57 AM

很多人在使用文生图工具时都会遇到类似的情况，输入一段很清晰的描述，希望画面中人物站在左边、动物在右边，或者希望海报上出现一段完整可读的文字，但生成结果却常常让人失望。要么位置关系混乱，要么文字变形，要么整体画面看起来不自然。继续调整参数，有时结果会更接近描述，但画面质量却明显下降，颜色变得奇怪，结构开始扭曲。反复尝试之后，往往需要生成十几张甚至几十张图，才能勉强挑出一张可用的。这种既想让模型听懂指令，又不希望画面被破坏的矛盾体验，已经成为很多用户在实际使用生成模型时的共同感受。随着生成式人工智能逐渐进入设计、电商、内容创作等真实场景，这种问题变得更加突出。用户不再只是追求一张看起来不错的图，而是希望结果稳定、结构正确、细节可靠，可以直接用于实际工作。然而现有方法在可控性和稳定性之间始终存在明显冲突，模型越是强调语义对齐，就越容易牺牲视觉质量，这种内在限制逐渐成为生成模型走向更广泛应用的一道门槛。在这样的背景下，清华大学段岳圻团队提出了《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》这一研究工作，从更底层的