AI News Hub Logo

AI News Hub

Westlake University Zhang Chi Team: From Visual Synthesis to Spatial Understanding, Video AI Is "Shifting"丨CVPR 2026

Leiphone
雷锋网

过去两年,视频生成的发展几乎是指数级的。从最早只能生成模糊片段,到如今可以生成具有叙事结构、光影一致性甚至风格控制的长视频,行业表面上已经接近一个阶段性成熟。 但如果把评价标准从“能不能生成一段视频”稍微提高到“能不能控制镜头”,问题就会完全暴露出来。当前大多数模型仍然停留在一种近似二维的生成范式中,它们擅长在时间上延续视觉模式,却缺乏对空间结构的稳定建模能力。 一旦涉及视角变化,模型往往无法保证同一个物体在不同帧之间的几何一致性,人物会发生细微但累积的漂移,建筑结构在移动中逐渐扭曲,遮挡关系也难以维持连续,这意味着模型生成的并不是一个被持续观察的世界,而是一系列在视觉上相似但空间上不一致的结果。 在这样的行业背景下,西湖大学 AGI Lab 研究团队提出了论文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》,值得一提的是,这篇论文也入选了 CVPR Highlight。与以往通过重新训练模型来引入控制能力的路径不同,这项工作将问题重新落回到推理阶段本身,尝试在不改变模型参数的情况下,