news 2026/4/25 9:46:25

【论文阅读】DSRL:Steering Your Diffusion Policy with Latent Space Reinforcement Learning

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文阅读】DSRL:Steering Your Diffusion Policy with Latent Space Reinforcement Learning

快速了解部分

基础信息(英文):
  1. 题目: Steering Your Diffusion Policy with Latent Space Reinforcement Learning
  2. 时间: 2025.06
  3. 机构: UC Berkeley, University of Washington, Amazon
  4. 3个英文关键词: Diffusion Policy
    , Reinforcement Learning, Latent Space
1句话通俗总结本文干了什么事情

这篇论文提出了一种叫DSRL的方法,它不修改Diffusion Policy 的模型参数,而是通过 RL 算法去寻找一个“完美的初始噪声”,利用这个噪声来“诱导”预训练好的策略输出更好的动作,从而用极少的样本量实现机器人策略的快速提升。

研究痛点:现有研究不足 / 要解决的具体问题
  1. Behavioral Cloning (BC) 的局限:基于人类演示训练的 Diffusion Policy 虽然效果好,但在遇到新环境或演示数据不足时表现不佳,且无法利用部署时的经验自我进化。
  2. 传统 RL 微调的困难:直接用 RL 微调 Diffusion Policy 需要巨大的计算量和样本量(Sample Inefficient),且反向传播过程数值不稳定,难以在真实机器人上应用。
核心方法:关键技术、模型或研究设计(简要)

DSRL (Diffusion Steering via Reinforcement Learning):将 Diffusion Policy 的输入噪声空间视为动作空间,训练一个轻量级的 RL 策略(Actor)来选择最佳的初始噪声,从而“ steering(引导)”冻结的 Diffusion Policy 输出高回报的动作。


深入了解部分

作者想要表达什么

作者认为,Diffusion Policy 的潜力不仅仅在于模仿数据,其潜在空间(Latent Space)包含了丰富的行为模式。我们不需要费力地去微调庞大的模型参数,只需要学会如何在这个潜在空间中“导航”(即选择合适的噪声),就能以极低的成本让策略适应新任务或环境。

相比前人创新在哪里
  1. 黑盒微调 (Black-box Finetuning):前人方法通常需要访问模型权重并进行反向传播(Back-propagation),计算昂贵且不稳定。DSRL完全不需要修改Diffusion Policy 的权重,只需要前向推理。
  2. 极高的样本效率:相比直接对动作空间进行 RL 或其他微调方法,DSRL 在真实机器人上仅需几十次交互(<50 episodes)就能将成功率从 20% 提升到 90%。
  3. 通用性:不仅适用于 Diffusion Policy,也适用于 Flow Matching 模型,甚至能微调像π0\pi_0π0这样的大规模通用策略。
解决方法/算法的通俗解释

想象 Diffusion Policy 是一个画技高超但性格固执的画家(模型权重已冻结),你让他画“猫”,他只会画他训练过的那几种猫。

  • 传统 RL 微调:像是强迫画家去上补习班重练画技(修改权重),费时费力。
  • DSRL:像是给画家提供不同的“灵感种子”(初始噪声)。DSRL 训练了一个小助手(RL Agent),这个小助手不断尝试给画家不同的种子,直到画家画出了你想要的“特定姿势的猫”。
解决方法的具体做法
  1. 定义新环境:将 Diffusion Policy 的输入噪声空间WWW定义为新的动作空间。
  2. RL 训练
    • Actor:输入状态sss,输出一个特定的噪声www
    • Critic:评估这个噪声www经由 Diffusion Policy 生成动作后的价值。
  3. 噪声混叠 (Noise Aliasing):利用 Diffusion Policy 的特性(不同的噪声可能生成相似的动作),通过训练一个 Value 函数QWQ_WQW来泛化未见过的噪声,提高学习效率。
  4. 部署:在实际运行时,RL 策略生成噪声www,将其输入给冻结的 Diffusion Policy,生成最终动作aaa
基于前人的哪些方法
  • Diffusion Policy / Flow Matching:作为基础的行为克隆策略。
  • Actor-Critic 算法 (如 SAC):作为在潜在空间进行优化的底层 RL 算法框架。
  • Latent Space Optimization:借鉴了生成模型中优化输入噪声的思想。
实验设置、数据、评估方式、结论
  • 设置
    • 仿真:OpenAI Gym, Robomimic, OGBench。
    • 真机:Franka Panda (单任务/多任务), WidowX (基于 Bridge V2 数据),π0\pi_0π0(基于 DROID 数据)。
  • 结论
    • 样本效率极高:在真机上,DSRL 仅需约 40 个 episode 就能学会新任务,而对比方法(如 RLPD)几乎无法学习。
    • 大模型微调:成功微调了 3.3B 参数的π0\pi_0π0模型,在 Libero 任务上将成功率从 20% 提升至 100%。
    • 鲁棒性:即使基础策略训练数据质量较差,DSRL 也能将其修正回来。
提到的同类工作
  • DPPO:直接对 Diffusion Policy 进行 PPO 微调。
  • IDQL / IQL:基于 Value 函数的离线 RL 方法。
  • RESIP / V-GPS:基于残差策略或 Value 引导的后处理方法。
和本文相关性最高的3个文献
  1. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion(Chi et al., 2023):DSRL 的基础,定义了 Diffusion Policy 在机器人领域的应用。
  2. Diffusion Policy Policy Optimization (DPPO)(Ren et al., 2024):直接竞品,尝试通过修改权重来微调 Diffusion Policy。
  3. π0\pi_0π0: A vision-language-action flow model for general robot control(Black et al., 2024):本文成功微调的对象,展示了 DSRL 对大规模 VLA 模型的适用性。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 9:43:36

EfficientNetV2深度解析:从渐进式训练到Fused-MBConv的架构革新

1. EfficientNetV2的诞生背景与核心目标 2019年EfficientNetV1的问世让业界看到了复合缩放&#xff08;Compound Scaling&#xff09;的威力——通过统一缩放网络深度、宽度和分辨率三个维度&#xff0c;用更少的参数实现了更高的准确率。但当我们真正把V1模型部署到生产环境时…

作者头像 李华
网站建设 2026/4/25 9:40:19

LFM2.5-1.2B-Instruct效果展示:LNG接收站操作规程问答准确性

LFM2.5-1.2B-Instruct效果展示&#xff1a;LNG接收站操作规程问答准确性 1. 模型能力概览 LFM2.5-1.2B-Instruct是一个1.2B参数量的轻量级指令微调大语言模型&#xff0c;专为边缘设备和低资源服务器设计。这个模型在保持较小体积的同时&#xff0c;展现出令人印象深刻的专业…

作者头像 李华