DAM-VLA——Decoupling Arm and Gripper, Samsung Research Institute's Dynamic Action VLA Sets New SOTA in Robot Manipulation | ICRA 2026
Leiphone
雷锋网
一、背景 视觉-语言-动作(VLA)模型正成为机器人智能化的核心架构,但现有主流方法(如OpenVLA、π0、CogACT)存在一个根本性缺陷:用同一个动作模型统一处理所有类型的动作。这种「一刀切」的设计在面对机器人操控任务时暴露出两大内在矛盾。 从任务特性来看,机器人操控存在两种本质不同的动作类型:手臂大幅度运动(粗动作)需要全局场景理解、路径约束宽松;夹爪精细操作(精细动作)需要局部精细聚焦、精确抓取姿态、容错率极低。这两种动作在路径约束、视觉注意力和数据分布上有本质差异,用同一个模型兼顾「粗定位」与「精细操作」必然产生冲突。 此外,传统方法缺乏对动作类型的主动感知与路由机制,无法根据当前操控阶段动态分配合适的推理资源,导致在长时程复杂任务中错误率随步骤增加而快速累积。DAM-VLA(Dynamic Action Model-Based Vision-Language-Action)首次将手臂运动与夹爪操作解耦建模,配合双尺度加权机制实现了精准高效的机器人操控。 二、核心方法 DAM-VLA 的核心架构包含三大组件,各司其职,协同实现手臂-夹爪的精准解耦。 模块一:双通道视
