CVPR 2026 3D 视觉前沿梳理:模型正在学会理解、生成和构建世界
Leiphone
雷锋网
3D 视觉正从重建生成,走向空间理解、动态模拟与工程化应用。 作者丨郑佳美 编辑丨岑 峰 如果说过去几年的视觉 AI 主要是在回答“模型能不能看懂一张图”,那么到 CVPR 2026,一个更清晰的趋势正在浮现:模型正在被要求理解图像背后的三维世界。 二维图像只是现实世界在某个视角下的投影,真正困难的地方不在于生成一张看起来合理的画面,而在于模型能否理解物体的空间结构、相机运动、材质光照、物理变化,以及这些信息在不同视角和不同时间中的一致性。 从今年的一系列 3D 视觉相关工作可以看到,研究重点正在从“生成结果是否好看”,转向“生成过程是否具备空间逻辑”。 有的工作试图通过自监督 3D 重建,让模型在没有显式标注的情况下学习几何关系;有的工作绕过传统重建流程,直接利用 3D-aware 特征实现实时新视角合成;也有工作进一步把 3D 表示扩展
