DAM-VLA——Decoupling Arm and Gripper, Samsung Research Institute's Dynamic Action VLA Sets New SOTA in Robot Manipulation | ICRA 2026

Leiphone

雷锋网

Apr 27, 2026, 06:33 AM

一、背景视觉-语言-动作（VLA）模型正成为机器人智能化的核心架构，但现有主流方法（如OpenVLA、π0、CogACT）存在一个根本性缺陷：用同一个动作模型统一处理所有类型的动作。这种「一刀切」的设计在面对机器人操控任务时暴露出两大内在矛盾。从任务特性来看，机器人操控存在两种本质不同的动作类型：手臂大幅度运动（粗动作）需要全局场景理解、路径约束宽松；夹爪精细操作（精细动作）需要局部精细聚焦、精确抓取姿态、容错率极低。这两种动作在路径约束、视觉注意力和数据分布上有本质差异，用同一个模型兼顾「粗定位」与「精细操作」必然产生冲突。此外，传统方法缺乏对动作类型的主动感知与路由机制，无法根据当前操控阶段动态分配合适的推理资源，导致在长时程复杂任务中错误率随步骤增加而快速累积。DAM-VLA（Dynamic Action Model-Based Vision-Language-Action）首次将手臂运动与夹爪操作解耦建模，配合双尺度加权机制实现了精准高效的机器人操控。二、核心方法 DAM-VLA 的核心架构包含三大组件，各司其职，协同实现手臂-夹爪的精准解耦。模块一：双通道视