CVPR 2026 世界模型论文全景梳理：从生成到建模的关键转变

Leiphone

雷锋网

Apr 29, 2026, 10:28 PM

在过去几年中，视频生成技术取得了令人瞩目的进展。从基于扩散模型的方法到大规模视频基础模型，生成结果在视觉质量上已经逐渐逼近真实世界。然而，当我们进一步审视这些模型时，一个更本质的问题开始显现：它们究竟是在“理解世界”，还是仅仅在“拟合像素分布”？传统视频生成方法大多建立在 2D 图像空间之上，通过逐帧建模来合成动态内容。这种范式虽然在短时间尺度和视觉表现上表现出色，但也暴露出一系列根本性局限：相机运动难以精确控制，多物体交互缺乏一致性，长时间生成容易出现结构漂移，甚至在复杂场景中违背基本物理规律。这些问题的共同根源在于模型缺乏对“世界本身”的建模能力。正是在这一背景下，“世界模型（World Model）”逐渐成为视觉生成与智能系统中的核心研究方向。与传统方法不同，世界模型试图构建一个能够统一描述空间结构、时间演化以及物理规律的内部表示，使模型不仅能够生成视觉内容，还能够进行推理、预测，甚至支持决策。从某种意义上说，这一转变标志着研究目标从“生成看起来真实的结果”，迈向“建模一个本质上合理的世界”。这一范式的演进正在多个维度同时发生：在表示层面，从 2D 像素走向 3D/4D 几