赋能具身智能：基于DUST框架的Franka Research 3机械臂视觉-语言-动作模型研究-深圳市維司達科技有限公司

在具身智能（Embodied AI）的研究领域，视觉-语言-动作模型（Vision-Language-Action, VLA）正逐渐成为赋予机器人通用作业能力的核心。然而，如何让机器人不仅能“听懂”指令，还能精准预测其动作对环境产生的物理影响，一直是学术界和工业界的难题。

近日，研究人员提出了一种名为DUST（Dual-Stream Diffusion）的新颖框架，通过双流扩散模型增强世界建模能力，并在Franka Research 3机械臂上实现了显著的性能突破。

DUST框架概述

DUST框架：解决模态冲突的“双流”设计

VLA 模型往往直接从视觉特征映射到动作序列，忽略了动作与环境变化之间的内在动力学。虽然部分研究尝试通过“世界模型”来预测未来状态，但由于动作（低维、时间平滑）与视觉观测（高维、空间结构化）这两种模态在统计属性上存在巨大差异，强行将其融合在统一的潜空间中往往会导致“模态冲突”，影响模型精度。

为了解决这一问题，DUST框架引入了以下三大核心创新：

多模态扩散Transformer (MMDiT) 架构：DUST并不将动作和视觉标记简单地连接在一起，而是维护了两条独立的路径。在每个MMDiT块中，只有在共享的跨模态注意力层中才会进行临时的信息交换，随后便立即分裂回各自的流。这种设计既保证了双向的知识共享，又避免了模态间的相互干扰。

MMDiT双流架构设计

解耦联合训练算法：在训练阶段，DUST对动作和未来视觉观察应用独立的噪声调度策略。通过独立采样噪声水平，模型被强制学习“正向因果”（已知动作预测未来）和“反向因果”（已知目标未来反推动作）。

异步采样与推理时缩放：由于视觉观察的去噪难度通常高于动作序列，DUST允许在推理时以不同的频率对两者进行采样——对高维视觉标记进行更频繁的去噪步骤。这种策略在不显著增加动作延迟的前提下，极大地提升了预测的物理一致性。

重点实战：FrankaResearch3机械臂的真实场景测评

Franka Research 3（简称 FR3）作为目前科研领域最主流的协作机器人之一，因其极高的灵敏度和精确的力控性能，被选为DUST框架验证真实世界有效性的核心平台。

1、实验平台规格与动作建模

在实验中，研究团队使用了一台具有7个自由度 (7-DoF) 的Franka Research 3机械臂。其状态空间和动作空间由机械臂的关节位置以及一个二元夹持器状态共同参数化。这种基于关节空间的控制方式对模型的精准度提出了极高要求，因为微小的角度偏差都可能导致末端执行器（Gripper）在操作精细物体时失败。

2、任务设计：跨物体的拾取与放置 (Pick-and-Place)

实验设置了四种具有挑战性的拾取与放置任务，每种任务通过不同的“源-目标”配置来定义：

任务1：将棕色盒子上的蓝色杯子放入金色碗中。
任务2：将棕色盒子上的泰迪熊放在白色盘子上。
任务3：将白色篮子里的蓝色方块放入黑碗中。
任务4：将白色盘子里的海绵放入白色篮子中。

为了测试模型的泛化性，每种任务都跨越了人偶、杯子、立方体和海绵等多种物体类别，这些物体在几何形状、尺寸和物理特性上各不相同。

3、数据驱动：专家演示与离线学习

不同于在仿真环境（如RoboCasa 或 GR-1）中可以使用成千上万个演示，在 FR3 机械臂上，研究团队仅通过远控操作（Teleoperation）采集了每项任务 60 个专家演示。在这种小样本量的情况下，DUST 依然展现出了极强的适应能力。

深度分析：DUST如何提升Franka的作业精度

实验结果显示，DUST在Franka Research 3上的表现全面优于现有的SOTA基准模型。

1、成功率的质变

根据实验数据（见下表），在平均成功率方面，DUST达到了67.7%，显著超过了强大的基准模型GR00T-N1.5（54.7%）和 FLARE 改进型（55.7%）。这意味着DUST相比标准VLA模型在真实世界中实现了约 13% 的性能提升。

2、物理一致性与预测修正

定性对比揭示了DUST成功的关键原因。以拾取蓝色杯子为例：

基准模型(GR00T-N1.5)：虽然能将夹持器带到杯子附近，但往往无法精确对齐杯缘，导致抓取失败。

DUST模型：由于融入了显式的世界建模，DUST会在生成动作的同时预测“如果我执行这个动作，夹持器会在哪里” 。这种内部预测允许模型不断调整动作，以确保夹持器与目标位置精准对齐，从而实现稳固抓取。

3、推理时缩放的威力

在FR3的部署中，通过增加视觉标记的去噪步数（异步采样），模型生成的未来视觉轨迹变得更加连贯和准确。这种在推理时通过计算换取精度的能力，使得机器人能够更好地处理现实世界中复杂的遮挡和光影变化。

跨越模拟与现实：大规模预训练的潜能

研究中强调了DUST在 Franka机械臂上的另一个应用优势：它能够利用低成本的“无动作视频”进行学习。由于DUST的双流架构可以仅训练视觉路径，研究团队先利用 BridgeV2视频数据集进行大规模预训练，然后再到FR3上进行微调。结果显示，这种预训练策略能显著提升机器人在下游任务中的数据效率，减少了对昂贵机械臂专家演示的需求。

结论与展望

通过在Franka Research 3机械臂上的成功实践，DUST框架证明了“双流扩散”架构在处理复杂具身任务中的卓越性。它不仅克服了动作与视觉间的模态冲突，更通过精准的世界建模赋予了机器人前瞻性的思维能力。

随着硬件如FR3的不断普及和DUST这种高性能算法的成熟，未来的工业和家庭助手将不再只是机械地模仿人类，而是能真正理解物理世界的动态演变，从而在更多变、更复杂的环境中胜任任务。DUST在FR3上实现的13% 成功率提升，仅仅是具身智能迈向实用化的一大步。

论文详情：https://arxiv.org/pdf/2510.27607

赋能具身智能：基于DUST框架的Franka Research 3机械臂视觉-语言-动作模型研究

2025最新！9款AI论文软件测评：研究生写论文痛点全解析

微信小程序uniapp-vue我爱美食--健康菜谱分享网站

基于微信小程序的智慧校园管理系统（源码+讲解视频+LW）

2025年我的台历定制之旅：温州云边包装让企业宣传更有温度

2025-12-25 全国各地响应最快的 BT Tracker 服务器(移动版)

springboot基于保信息学科平台系统（11584）