【论文阅读】DSRL:Steering Your Diffusion Policy with Latent Space Reinforcement Learning-深圳市維司達科技有限公司

快速了解部分

基础信息（英文）：

题目: Steering Your Diffusion Policy with Latent Space Reinforcement Learning
时间: 2025.06
机构: UC Berkeley, University of Washington, Amazon
3个英文关键词: Diffusion Policy
, Reinforcement Learning, Latent Space

1句话通俗总结本文干了什么事情

这篇论文提出了一种叫DSRL的方法，它不修改Diffusion Policy 的模型参数，而是通过 RL 算法去寻找一个“完美的初始噪声”，利用这个噪声来“诱导”预训练好的策略输出更好的动作，从而用极少的样本量实现机器人策略的快速提升。

研究痛点：现有研究不足 / 要解决的具体问题

Behavioral Cloning (BC) 的局限：基于人类演示训练的 Diffusion Policy 虽然效果好，但在遇到新环境或演示数据不足时表现不佳，且无法利用部署时的经验自我进化。
传统 RL 微调的困难：直接用 RL 微调 Diffusion Policy 需要巨大的计算量和样本量（Sample Inefficient），且反向传播过程数值不稳定，难以在真实机器人上应用。

核心方法：关键技术、模型或研究设计（简要）

DSRL (Diffusion Steering via Reinforcement Learning)：将 Diffusion Policy 的输入噪声空间视为动作空间，训练一个轻量级的 RL 策略（Actor）来选择最佳的初始噪声，从而“ steering（引导）”冻结的 Diffusion Policy 输出高回报的动作。

深入了解部分

作者想要表达什么

作者认为，Diffusion Policy 的潜力不仅仅在于模仿数据，其潜在空间（Latent Space）包含了丰富的行为模式。我们不需要费力地去微调庞大的模型参数，只需要学会如何在这个潜在空间中“导航”（即选择合适的噪声），就能以极低的成本让策略适应新任务或环境。

相比前人创新在哪里

黑盒微调 (Black-box Finetuning)：前人方法通常需要访问模型权重并进行反向传播（Back-propagation），计算昂贵且不稳定。DSRL完全不需要修改Diffusion Policy 的权重，只需要前向推理。
极高的样本效率：相比直接对动作空间进行 RL 或其他微调方法，DSRL 在真实机器人上仅需几十次交互（<50 episodes）就能将成功率从 20% 提升到 90%。
通用性：不仅适用于 Diffusion Policy，也适用于 Flow Matching 模型，甚至能微调像π0\pi_0π0这样的大规模通用策略。

解决方法/算法的通俗解释

想象 Diffusion Policy 是一个画技高超但性格固执的画家（模型权重已冻结），你让他画“猫”，他只会画他训练过的那几种猫。

传统 RL 微调：像是强迫画家去上补习班重练画技（修改权重），费时费力。
DSRL：像是给画家提供不同的“灵感种子”（初始噪声）。DSRL 训练了一个小助手（RL Agent），这个小助手不断尝试给画家不同的种子，直到画家画出了你想要的“特定姿势的猫”。

解决方法的具体做法

定义新环境：将 Diffusion Policy 的输入噪声空间WWW定义为新的动作空间。
RL 训练：
- Actor：输入状态sss，输出一个特定的噪声www。
- Critic：评估这个噪声www经由 Diffusion Policy 生成动作后的价值。
噪声混叠 (Noise Aliasing)：利用 Diffusion Policy 的特性（不同的噪声可能生成相似的动作），通过训练一个 Value 函数QWQ_WQW来泛化未见过的噪声，提高学习效率。
部署：在实际运行时，RL 策略生成噪声www，将其输入给冻结的 Diffusion Policy，生成最终动作aaa。

基于前人的哪些方法

Diffusion Policy / Flow Matching：作为基础的行为克隆策略。
Actor-Critic 算法 (如 SAC)：作为在潜在空间进行优化的底层 RL 算法框架。
Latent Space Optimization：借鉴了生成模型中优化输入噪声的思想。

实验设置、数据、评估方式、结论

设置：
- 仿真：OpenAI Gym, Robomimic, OGBench。
- 真机：Franka Panda (单任务/多任务), WidowX (基于 Bridge V2 数据),π0\pi_0π0(基于 DROID 数据)。
结论：
- 样本效率极高：在真机上，DSRL 仅需约 40 个 episode 就能学会新任务，而对比方法（如 RLPD）几乎无法学习。
- 大模型微调：成功微调了 3.3B 参数的π0\pi_0π0模型，在 Libero 任务上将成功率从 20% 提升至 100%。
- 鲁棒性：即使基础策略训练数据质量较差，DSRL 也能将其修正回来。

提到的同类工作

DPPO：直接对 Diffusion Policy 进行 PPO 微调。
IDQL / IQL：基于 Value 函数的离线 RL 方法。
RESIP / V-GPS：基于残差策略或 Value 引导的后处理方法。

和本文相关性最高的3个文献

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(Chi et al., 2023)：DSRL 的基础，定义了 Diffusion Policy 在机器人领域的应用。
Diffusion Policy Policy Optimization (DPPO)(Ren et al., 2024)：直接竞品，尝试通过修改权重来微调 Diffusion Policy。
π0\pi_0π0: A vision-language-action flow model for general robot control(Black et al., 2024)：本文成功微调的对象，展示了 DSRL 对大规模 VLA 模型的适用性。