动态环境中机器人操作的视觉-语言-动作模型研究与应用-深圳市維司達科技有限公司

机器人操作一直是人工智能和机器人学交叉领域的研究热点。传统的机器人控制系统通常需要精确的环境建模和复杂的运动规划，这使得它们在面对动态变化的环境时表现不佳。近年来，视觉-语言-动作（Vision-Language-Action, VLA）模型的出现为这一问题提供了新的解决思路。

VLA模型通过融合视觉输入、语言指令和动作输出，实现了更加灵活和通用的机器人控制。这类模型的核心优势在于能够理解自然语言指令，并根据实时视觉观察生成相应的动作策略。然而，现有的VLA模型主要针对静态环境设计，当面对移动目标或持续变化的环境时，其性能往往会显著下降。

动态环境中的机器人操作面临两个主要挑战：

现有的VLA模型大多基于单帧观察进行决策，缺乏对时间维度的建模能力。这种"瞬时决策"的特性使得它们难以应对需要连续时空推理的动态任务。

为了推动动态操作研究，华中科技大学和华为的研究团队提出了DOMINO（Dynamic Object ManIpulatioN Operations）数据集和基准测试。这是目前规模最大、任务最丰富的动态操作研究平台。

DOMINO数据集包含以下关键特征：

任务多样性：35种不同的动态操作任务，涵盖从简单抓取到复杂双臂协作的各种场景
难度分级：任务按动态复杂度分为三个等级：
- Level 1：匀速直线运动（低阶动态）
- Level 2：多项式曲线运动（高阶动态）
- Level 3：分段随机运动（突变动态）
大规模专家演示：超过110,000条专家轨迹
多机器人平台支持：适配5种不同的机器人形态

数据集构建采用了创新的两阶段时空同步方法：

这种方法确保了动态演示的高质量和可重复性。

DOMINO引入了多维度的评估体系：

成功率（SR）：任务完成的二进制指标
操作分数（MS）：考虑执行质量的连续指标，计算公式为：
```
MS = RC × P
```
其中RC（Route Completion）衡量空间收敛度，P为惩罚因子（安全违规时降低分数）
动态系数（α）：参数化目标速度，DOMINO@α表示最大速度为α m/s的设置

针对现有VLA模型在动态环境中的局限性，研究团队提出了PUMA（Predictive Unified Manipulation Architecture）架构。PUMA的核心创新在于将历史感知与短期预测相结合，增强了模型的时空推理能力。

PUMA包含三个关键组件：

场景中心的历史动态编码：
- 采样历史帧计算光流图
- 使用压缩的光流表示（64×64分辨率）
- 显式提供运动线索，而非依赖模型隐式学习
对象中心的动态表示：
- 使用GroundingDINO+SAM2定位目标对象
- 提取未来帧中的对象特征作为监督信号
- 引入可学习的"世界查询"预测对象未来状态
双任务训练目标：
- 主任务：动作预测（L1损失）
- 辅助任务：未来特征预测（余弦相似度损失）

PUMA的具体实现包含以下关键技术点：

光流计算管道：

对象定位模块：

训练配置：

研究团队在DOMINO基准上进行了全面的实验评估，得出了多项重要发现。

实验结果显示了PUMA相对于现有VLA模型的优势：

PUMA在最具挑战性的任务上表现尤为突出，如在"水平摇瓶"任务中达到75%的成功率，比最佳基线提高23个百分点。

消融研究验证了PUMA各组件的重要性：