快速了解部分
基础信息(英文):
- 题目: Steering Your Diffusion Policy with Latent Space Reinforcement Learning
- 时间: 2025.06
- 机构: UC Berkeley, University of Washington, Amazon
- 3个英文关键词: Diffusion Policy
, Reinforcement Learning, Latent Space
1句话通俗总结本文干了什么事情
这篇论文提出了一种叫DSRL的方法,它不修改Diffusion Policy 的模型参数,而是通过 RL 算法去寻找一个“完美的初始噪声”,利用这个噪声来“诱导”预训练好的策略输出更好的动作,从而用极少的样本量实现机器人策略的快速提升。
研究痛点:现有研究不足 / 要解决的具体问题
- Behavioral Cloning (BC) 的局限:基于人类演示训练的 Diffusion Policy 虽然效果好,但在遇到新环境或演示数据不足时表现不佳,且无法利用部署时的经验自我进化。
- 传统 RL 微调的困难:直接用 RL 微调 Diffusion Policy 需要巨大的计算量和样本量(Sample Inefficient),且反向传播过程数值不稳定,难以在真实机器人上应用。
核心方法:关键技术、模型或研究设计(简要)
DSRL (Diffusion Steering via Reinforcement Learning):将 Diffusion Policy 的输入噪声空间视为动作空间,训练一个轻量级的 RL 策略(Actor)来选择最佳的初始噪声,从而“ steering(引导)”冻结的 Diffusion Policy 输出高回报的动作。
深入了解部分
作者想要表达什么
作者认为,Diffusion Policy 的潜力不仅仅在于模仿数据,其潜在空间(Latent Space)包含了丰富的行为模式。我们不需要费力地去微调庞大的模型参数,只需要学会如何在这个潜在空间中“导航”(即选择合适的噪声),就能以极低的成本让策略适应新任务或环境。
相比前人创新在哪里
- 黑盒微调 (Black-box Finetuning):前人方法通常需要访问模型权重并进行反向传播(Back-propagation),计算昂贵且不稳定。DSRL完全不需要修改Diffusion Policy 的权重,只需要前向推理。
- 极高的样本效率:相比直接对动作空间进行 RL 或其他微调方法,DSRL 在真实机器人上仅需几十次交互(<50 episodes)就能将成功率从 20% 提升到 90%。
- 通用性:不仅适用于 Diffusion Policy,也适用于 Flow Matching 模型,甚至能微调像π0\pi_0π0这样的大规模通用策略。
解决方法/算法的通俗解释
想象 Diffusion Policy 是一个画技高超但性格固执的画家(模型权重已冻结),你让他画“猫”,他只会画他训练过的那几种猫。
- 传统 RL 微调:像是强迫画家去上补习班重练画技(修改权重),费时费力。
- DSRL:像是给画家提供不同的“灵感种子”(初始噪声)。DSRL 训练了一个小助手(RL Agent),这个小助手不断尝试给画家不同的种子,直到画家画出了你想要的“特定姿势的猫”。
解决方法的具体做法
- 定义新环境:将 Diffusion Policy 的输入噪声空间WWW定义为新的动作空间。
- RL 训练:
- Actor:输入状态sss,输出一个特定的噪声www。
- Critic:评估这个噪声www经由 Diffusion Policy 生成动作后的价值。
- 噪声混叠 (Noise Aliasing):利用 Diffusion Policy 的特性(不同的噪声可能生成相似的动作),通过训练一个 Value 函数QWQ_WQW来泛化未见过的噪声,提高学习效率。
- 部署:在实际运行时,RL 策略生成噪声www,将其输入给冻结的 Diffusion Policy,生成最终动作aaa。
基于前人的哪些方法
- Diffusion Policy / Flow Matching:作为基础的行为克隆策略。
- Actor-Critic 算法 (如 SAC):作为在潜在空间进行优化的底层 RL 算法框架。
- Latent Space Optimization:借鉴了生成模型中优化输入噪声的思想。
实验设置、数据、评估方式、结论
- 设置:
- 仿真:OpenAI Gym, Robomimic, OGBench。
- 真机:Franka Panda (单任务/多任务), WidowX (基于 Bridge V2 数据),π0\pi_0π0(基于 DROID 数据)。
- 结论:
- 样本效率极高:在真机上,DSRL 仅需约 40 个 episode 就能学会新任务,而对比方法(如 RLPD)几乎无法学习。
- 大模型微调:成功微调了 3.3B 参数的π0\pi_0π0模型,在 Libero 任务上将成功率从 20% 提升至 100%。
- 鲁棒性:即使基础策略训练数据质量较差,DSRL 也能将其修正回来。
提到的同类工作
- DPPO:直接对 Diffusion Policy 进行 PPO 微调。
- IDQL / IQL:基于 Value 函数的离线 RL 方法。
- RESIP / V-GPS:基于残差策略或 Value 引导的后处理方法。
和本文相关性最高的3个文献
- Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(Chi et al., 2023):DSRL 的基础,定义了 Diffusion Policy 在机器人领域的应用。
- Diffusion Policy Policy Optimization (DPPO)(Ren et al., 2024):直接竞品,尝试通过修改权重来微调 Diffusion Policy。
- π0\pi_0π0: A vision-language-action flow model for general robot control(Black et al., 2024):本文成功微调的对象,展示了 DSRL 对大规模 VLA 模型的适用性。