对话清华商宇丨从生成视频到支撑行动，世界模型需要新的评测标准

Leiphone

雷锋网

Apr 29, 2026, 10:46 PM

在今天的 AI 叙事里，“世界模型”几乎成了通往具身智能的必经之路。它被期待理解物理规律、预测环境变化，并为机器人决策提供依据。但一个尖锐的问题是：当一个模型能生成一段足够逼真的未来视频时，我们究竟该相信它真的理解了世界，还是只是更擅长复刻世界的表象？咬了一口的苹果会自动愈合，坠落的杯子在空中漂移——在具身智能的视角下，这种AI视频“感知与功能的断裂”无疑是致命的。一个模型即便能生成 4K 分辨率的视觉幻象，如果它无法理解重力约束、因果关联与物体永久性，它就永远无法支撑机器人在复杂物理世界中的抓取、规划与交互。视觉真实不等于功能可用，这道长期被忽视的“裂缝”，正是当前视觉智能通往 AGI 的最大障碍。 CVPR 2026 正在释放一个明确的信号：计算机视觉（CV）与计算机图形学（CG）的传统边界正在模糊。视觉研究的主线正从单纯的“像素预测”转向对“世界动力学”的重建，世界模型不再仅仅满足于“看”，而是要构建一个具备物理一致性的内部沙盒。这意味着，下一代视觉智能必须跨越 2D 藩篱，去硬碰硬地解决因果律、重力与 3D 空间的拓扑逻辑。这种转向，不仅标志着视觉研究正在从“图像处理”