Westlake University Zhang Chi Team: From Visual Synthesis to Spatial Understanding, Video AI Is "Shifting"丨CVPR 2026

Leiphone

雷锋网

Apr 22, 2026, 02:19 AM

过去两年，视频生成的发展几乎是指数级的。从最早只能生成模糊片段，到如今可以生成具有叙事结构、光影一致性甚至风格控制的长视频，行业表面上已经接近一个阶段性成熟。但如果把评价标准从“能不能生成一段视频”稍微提高到“能不能控制镜头”，问题就会完全暴露出来。当前大多数模型仍然停留在一种近似二维的生成范式中，它们擅长在时间上延续视觉模式，却缺乏对空间结构的稳定建模能力。一旦涉及视角变化，模型往往无法保证同一个物体在不同帧之间的几何一致性，人物会发生细微但累积的漂移，建筑结构在移动中逐渐扭曲，遮挡关系也难以维持连续，这意味着模型生成的并不是一个被持续观察的世界，而是一系列在视觉上相似但空间上不一致的结果。在这样的行业背景下，西湖大学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》，值得一提的是，这篇论文也入选了 CVPR Highlight。与以往通过重新训练模型来引入控制能力的路径不同，这项工作将问题重新落回到推理阶段本身，尝试在不改变模型参数的情况下，