Tsinghua Duan Yueqi Team Paper: From Parameter Tuning to Control, Text-to-Image Generation Undergoes a Methodological Upgrade丨CVPR 2026
Leiphone
雷锋网
很多人在使用文生图工具时都会遇到类似的情况,输入一段很清晰的描述,希望画面中人物站在左边、动物在右边,或者希望海报上出现一段完整可读的文字,但生成结果却常常让人失望。 要么位置关系混乱,要么文字变形,要么整体画面看起来不自然。继续调整参数,有时结果会更接近描述,但画面质量却明显下降,颜色变得奇怪,结构开始扭曲。反复尝试之后,往往需要生成十几张甚至几十张图,才能勉强挑出一张可用的。 这种既想让模型听懂指令,又不希望画面被破坏的矛盾体验,已经成为很多用户在实际使用生成模型时的共同感受。 随着生成式人工智能逐渐进入设计、电商、内容创作等真实场景,这种问题变得更加突出。用户不再只是追求一张看起来不错的图,而是希望结果稳定、结构正确、细节可靠,可以直接用于实际工作。 然而现有方法在可控性和稳定性之间始终存在明显冲突,模型越是强调语义对齐,就越容易牺牲视觉质量,这种内在限制逐渐成为生成模型走向更广泛应用的一道门槛。 在这样的背景下,清华大学段岳圻团队提出了《CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance》这一研究工作,从更底层的
