AI News Hub Logo

AI News Hub

对话清华商宇丨从生成视频到支撑行动,世界模型需要新的评测标准

Leiphone
雷锋网

在今天的 AI 叙事里,“世界模型”几乎成了通往具身智能的必经之路。 它被期待理解物理规律、预测环境变化,并为机器人决策提供依据。但一个尖锐的问题是:当一个模型能生成一段足够逼真的未来视频时,我们究竟该相信它真的理解了世界,还是只是更擅长复刻世界的表象? 咬了一口的苹果会自动愈合,坠落的杯子在空中漂移——在具身智能的视角下,这种AI视频“感知与功能的断裂”无疑是致命的。 一个模型即便能生成 4K 分辨率的视觉幻象,如果它无法理解重力约束、因果关联与物体永久性,它就永远无法支撑机器人在复杂物理世界中的抓取、规划与交互。视觉真实不等于功能可用,这道长期被忽视的“裂缝”,正是当前视觉智能通往 AGI 的最大障碍。 CVPR 2026 正在释放一个明确的信号:计算机视觉(CV)与计算机图形学(CG)的传统边界正在模糊。视觉研究的主线正从单纯的“像素预测”转向对“世界动力学”的重建,世界模型不再仅仅满足于“看”,而是要构建一个具备物理一致性的内部沙盒。这意味着,下一代视觉智能必须跨越 2D 藩篱,去硬碰硬地解决因果律、重力与 3D 空间的拓扑逻辑。 这种转向,不仅标志着视觉研究正在从“图像处理”