【论文自动阅读】HIERARCHICAL MIXTURE-OF-EXPERTS FOR GENERALIST VISION-LANGUAGE-ACTION POLICIES-深圳市維司達科技有限公司

HiMoE-VLA相关信息梳理

快速了解部分

基础信息（英文）：

题目：HIERARCHICAL MIXTURE-OF-EXPERTS FOR GENERALIST VISION-LANGUAGE-ACTION POLICIES
时间年月：2025年12月
机构名：Fudan University、Microsoft Research Asia、Xi’an Jiaotong University、Tsinghua University
3个英文关键词：Vision-Language-Action (VLA)、Hierarchical Mixture-of-Experts (HiMoE)、robotic foundation models
1句话通俗总结本文内容：本文提出HiMoE-VLA框架，通过分层专家混合架构处理机器人数据的异质性，实现跨不同机器人和动作空间的精准动作生成与稳健泛化。

研究痛点：现有研究不足 / 要解决的具体问题

机器人演示数据存在显著异质性，涵盖机器人实体、动作空间、传感器配置、动作控制频率等多方面，现有方法缺乏针对性设计，难以整合这些多样化因素。
现有VLA模型在大规模异质机器人数据集上预训练后，微调至特定目标领域时，泛化能力有限，知识迁移效率低，迁移到新场景时性能下降。
不同动作空间的数据可迁移性差，将其与其他变异因素直接混合会导致整合困难，影响模型对跨数据集和实体的知识迁移效果。

核心方法：关键技术、模型或研究设计（简要）

构建HiMoE-VLA框架，整合预训练视觉-语言模型（VLM，基于PaliGemma）与分层专家混合（HiMoE）动作模块。
HiMoE架构包含动作空间专家模块（AS-MoE）和异质性平衡专家模块（HB-MoE），分别处理动作空间差异和更广泛的异质性因素，中间通过密集Transformer块将异质信号整合为共享表征。
引入动作空间正则化（AS-Reg，对比目标）、异质性平衡正则化（HB-Reg，平衡专家路由）及流匹配损失，优化模型训练，提升专家专业化程度与知识整合能力。

深入了解部分

相比前人创新在哪里

首次提出分层专家混合（HiMoE）架构用于VLA模型的动作模块，将动作空间异质性与其他广泛异质性因素分层处理，而非传统方法的混合处理或单一模块处理，实现更精准的异质性适配。
设计针对性正则化策略，AS-Reg强化AS-MoE对不同动作空间的专业化，HB-Reg引导HB-MoE平衡整合异质信息，解决传统MoE架构中专家利用率不均、专业化不足的问题。
实现跨动作空间的正向知识迁移，传统模型在混合不同动作空间数据训练时易出现性能下降，而HiMoE-VLA在联合训练异质动作空间数据时，不仅避免负迁移，还能提升性能。

解决方法/算法的通俗解释，以及整体流程

通俗解释
- 可将HiMoE-VLA看作“机器人智能大脑”：视觉-语言模块（VLM）像“眼睛和耳朵”，负责看懂场景（图像）、理解指令（语言）；HiMoE动作模块像“专业化分工的手脚控制中心”，AS-MoE是“动作类型专员”，专门处理不同动作控制方式（如关节角度控制、末端执行器控制）的差异，HB-MoE是“综合协调员”，应对机器人硬件、传感器等其他差异，Transformer块则是“信息整合员”，将各专员处理的信息汇总成统一“操作手册”。
- 正则化策略类似“绩效考核”：AS-Reg确保“动作类型专员”专注自身领域，HB-Reg避免“综合协调员”过度依赖部分资源，流匹配损失则让“大脑”更精准预测动作序列，如同提前模拟多次动作找到最优路径。
整体流程
1. 输入：语言指令、机器人本体感觉状态（如关节位置）、RGB图像。
2. 视觉-语言处理：VLM提取图像-文本的跨注意力 tokens 及中间键值（KV）表征，KV缓存加速推理。
3. 动作模块处理：本体感觉状态与带噪声动作序列投影为统一向量，经AS-MoE处理动作空间差异，HB-MoE处理广泛异质性，Transformer块整合为共享表征，结合VLM的KV表征进一步优化。
4. 动作生成：在流匹配损失、AS-Reg、HB-Reg共同优化下，模型输出去噪后的未来动作序列。

基于前人的哪些方法

视觉-语言模型基础：借鉴PaliGemma模型（融合SigLIP视觉编码器与Gemma语言模型）的架构，提取语义对齐的视觉-语言表征，类似π₀模型中VLM的应用思路。
专家混合架构：基于传统MoE架构（如LLM、视觉模型中的稀疏参数激活思路），扩展为分层结构，同时参考负载平衡正则化（如Dai et al., 2024）、动态专家激活（如Guo et al., 2024）等优化策略。
动作生成与训练：采用流匹配损失（Lipman et al., 2022）建模动作分布，延续扩散基政策学习的稳定训练思路；正则化设计参考对比学习（用于AS-Reg）和专家路由平衡方法（用于HB-Reg）。
数据集与预训练-微调范式：沿用Open X-Embodiment（OXE）、ALOHA等大规模机器人数据集预训练，再在特定基准（如CALVIN、LIBERO）微调的范式，类似Octo、OpenVLA等模型的训练流程。

实验设置、数据、评估方式

实验设置
- 预训练：在OXE数据集（2250万帧）与ALOHA数据集（160万帧）混合数据上预训练，覆盖多种机器人实体、动作空间与任务。
- 评估基准：仿真基准（CALVIN：Franka Panda机械臂长程桌面操作，采用D→D设置；LIBERO：含Spatial、Object、Goal、Long四个任务套件）；真实机器人平台（xArm7单臂机器人：3项任务，分解为子阶段；ALOHA双臂机器人：3项任务，含双手协调操作）。
- 硬件与参数：模型40亿参数，16块A100 GPU端到端训练，DeepSpeed优化，MoE设32个专家，top-k=4路由，正则化系数λ_AS=0.002、λ_HB=0.001。
数据
- 预训练数据：OXE数据集（60个数据集、22种机器人实体的100多万条真实轨迹子集）与ALOHA数据集（3个公开数据集，侧重双臂协调与高精度操作），共2410万帧。
- 微调与评估数据：CALVIN-D子集（有限演示，评估未见过的指令序列）；LIBERO各套件（每个任务50条人类遥操作演示）；真实机器人数据（xArm7：320条遥操作演示，含干扰物与新物体测试；ALOHA：350条遥操作演示，含干扰物与新物品测试）。
评估方式
- 仿真基准：CALVIN以1-5长度任务序列的连续完成平均次数衡量；LIBERO以各任务平均成功率（%）衡量。
- 真实机器人：按任务子阶段计算成功率，同时评估对未见过干扰物、新物体的泛化成功率，计算整体平均成功率。
- 消融实验：评估初始化与预训练、不同异质性处理方法、HiMoE组件（AS-MoE、HB-MoE、正则化）、专家数量与路由策略对模型性能的影响。

提到的同类工作

视觉-语言-动作（VLA）模型：RT-2（动作离散为 tokens）、OpenVLA（动作 token 化，开源模型）、RoboFlamingo（预测连续动作）、UniVLA（动作感知目标与多视角输入）、π₀（视觉-语言-动作流模型，多视角输入）、DeeR（动态推理多模态大模型）、MDT（多模态扩散Transformer）、RDT-1B（双操作的统一动作空间，缺乏同动作空间异质性处理）、HPT（数据集特定的茎和头，限制跨数据集迁移）。
专家混合（MoE）架构：Switch Transformer（LLM稀疏计算）、GShard（大模型条件计算与自动分片）、DeepSeekMoE（LLM专家专业化）、视觉MoE（如Riquelme et al., 2021）、扩散模型MoE（如Fei et al., 2024）；路由优化方法（哈希路由Roller et al., 2021、动态专家激活Guo et al., 2024、负载平衡正则化Dai et al., 2024）。
机器人数据集与预训练方法：Open X-Embodiment（OXE，多机器人数据集）、ALOHA（双臂机器人数据集）、Octo（基于OXE预训练的通用机器人策略）、视频预训练策略（如Wu et al., 2023、Cheang et al., 2024，无显式动作监督）。

和本文相关性最高的3个文献

Black, K., et al. (2024). π₀: A vision-language-action flow model for general robot control. arXiv preprint arXiv:2410.24164.
- 相关性：本文VLM模块基于该文献中的PaliGemma架构，且π₀是本文实验中重要的对比基准，本文在其基础上优化了动作模块的异质性处理能力，性能全面超越该模型。
Kim, M. J., et al. (2024). OpenVLA: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246.
- 相关性：该文献是开源VLA模型的代表，采用OXE数据集预训练，是本文在CALVIN、LIBERO及真实机器人实验中的核心对比基线之一，本文针对其无法有效处理动作空间异质性的缺陷，提出HiMoE架构，在各项指标上实现超越。
O’Neill, A., et al. (2024). Open x-embodiment: Robotic learning datasets and rt-x models. In 2024 IEEE International Conference on Robotics and Automation (ICRA), pp. 6892–6903. IEEE.
- 相关性：该文献提出的OXE数据集是本文预训练数据的核心组成部分（占2250万帧），为模型提供了多样化的机器人实体与动作空间数据基础，本文的异质性处理设计正是针对该类大规模多源机器人数据集的特性。