【论文自动阅读】Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspecti-深圳市維司達科技有限公司

快速了解部分

题目: Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives
时间: 2025.12
机构: Xi’an Jiaotong University, Hong Kong University of Science and Technology (Guangzhou), Chinese Academy of Sciences, Westlake University, Zhejiang University, University of Sydney, BAAI, Peking University
3个英文关键词: Robot manipulation, robotic foundation model, policy learning

本文从算法角度出发，通过“高层规划”和“低层控制”这两个互补的层面，对基于学习的机器人操作方法进行了统一的梳理和分类。

现有的综述往往聚焦于特定的模型类别（如视觉语言动作模型或扩散策略），导致不同流派之间缺乏横向对比，难以形成对机器人操作算法原理的系统性理解。

提出了一种基于“规划与学习”抽象的分类法：

高层规划 (High-Level Planner)：负责任务分解、推理和意图生成（如LLM规划、视觉语言规划）。
低层学习控制 (Low-Level Learning-Based Control)：负责将感知输入转化为具体动作，分为输入建模、潜在表示学习和策略学习三个步骤。

作者明确指出，单纯的端到端大模型无法解决复杂的机器人操作问题。未来的机器人必须采用**“双层架构”**：

高层规划（High-Level Planner）是必须的：机器人需要一个类似“大脑”的模块（基于LLM/MLLM）来处理长程任务（Long-horizon tasks）。这意味着机器人不能只靠“肌肉记忆”，必须先通过语言或代码进行逻辑推理。
低层控制（Low-Level Controller）需要解耦：具体的动作执行（如机械臂怎么动）应该与高层思考解耦。作者强调，**“代码即策略”（Code as Policies）**是一个重要的趋势，即高层生成代码，低层执行代码，这样比直接生成动作更灵活、更鲁棒。

作者在结论部分（Section IV）强调，仅靠模仿学习（Imitation Learning）或强化学习（Reinforcement Learning）现有的范式存在瓶颈：

辅助任务（Auxiliary Tasks）至关重要：为了提高数据效率和泛化能力，机器人必须在没有直接任务监督的情况下学习。例如，通过世界模型（World Modeling）预测未来的画面，或者通过目标提取来学习视觉表征。这就像人类在学习技能时，不仅仅是在模仿，还在大脑中构建对世界的理解。
潜在学习（Latent Learning）是核心：无论是视觉输入还是动作输出，直接处理原始数据效率低下。作者结论认为，将视觉和动作压缩到潜在空间（Latent Space）（如离散的Token或连续的向量）是实现跨任务、跨形态（Cross-embodiment）迁移的关键。

作者在分析中指出，当前基于2D图像的视觉-语言-动作（VLA）模型虽然流行，但存在物理交互的局限性：

3D表征是刚需：为了处理接触丰富的操作（Contact-rich manipulation，如插拔、堆叠），机器人必须理解3D空间结构。作者结论认为，**3D高斯泼溅（3D Gaussian Splatting）和神经场（Neural Fields）**等技术将逐渐成为标准，因为它们能提供更好的几何理解。
超越视觉：作者特别强调，触觉（Tactile）、力觉和听觉是未来的关键。视觉会欺骗（如遮挡），但触觉不会。未来的机器人必须是多模态的，利用触觉来弥补视觉的不足，特别是在精密操作中。

在最后的展望（Prospective Future Research Directions）中，作者提出了几个非常务实的结论，指出了当前研究的“虚幻”与现实的差距：

核心挑战	作者的核心结论与观点
数据瓶颈	现实数据太少，仿真与现实差距（Sim-to-Real）太大。结论是：必须建立“数据飞轮”（Data Flywheel），让机器人能自动筛选高质量数据，利用网络数据和仿真数据进行自我提升。
安全性	安全不能靠学，必须靠设计。作者警告说，单纯依靠学习（Learning-based）的方法无法保证安全。未来的系统必须是混合系统（Hybrid），即学习算法负责灵活性，而传统的基于规则或控制理论的方法（如MPC）负责保证安全底线。
长程执行	机器人必须具备“容错与恢复”能力。作者结论认为，目前的模型在出错后往往无法挽回，未来的模型必须内置故障检测和恢复策略，而不是一旦出错就重启。