news 2026/4/23 14:41:45

【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】ReWorld:具身世界模型的多维度奖励建模

快速了解部分

基础信息(英文):

1.题目: ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models
2.时间: 2025.xx (arXiv预印本)
3.机构: Eastern Institute of Technology, Ningbo; Georgia Institute of Technology; Shanghai Jiao Tong University; Tsinghua University; University of Science and Technology of China; Peking University
4.3个英文关键词: Embodied World Models, Multi-Dimensional Reward, Reinforcement Learning

1句话通俗总结本文干了什么事情

本文提出了一种名为ReWorld的框架,利用分层奖励模型和强化学习,解决了视频生成模型在物理真实性、动作合理性和任务逻辑上与视觉效果脱节的问题。

研究痛点:现有研究不足 / 要解决的具体问题

当前基于视频的世界模型主要关注视觉生成质量,忽略了物理保真度、动态一致性和任务逻辑(即“物理恐怖谷”问题)。现有的单维度奖励模型无法同时评估低级物理(如碰撞)和高级语义(如任务完成),且基于流匹配(Flow Matching)的模型难以直接应用标准的强化学习算法(如PPO)进行优化。

核心方法:关键技术、模型或研究设计(简要)

提出了ReWorld框架,包含两部分核心创新:一是HERO(分层奖励模型),通过多头架构分别评估物理真实性、具身合理性、任务完成度和视觉质量;二是HERO-FPO(HERO引导的流策略优化),提出了一种CFM-似然代理方法,使流模型能通过PPO算法进行高效强化学习。

深入了解部分

相比前人创新在哪里

  1. 多维奖励解耦:不同于以往单一的美学或整体评分,ReWorld将奖励分解为四个正交维度(物理、具身、任务、视觉),并映射到视觉主干网络的不同特征层级。
  2. 流模型RLHF算法:首次解决了流匹配(Flow Matching)类生成模型无法直接计算对数似然(log-likelihood)从而难以应用PPO的难题,提出了CFM-Likelihood Proxy,将PPO更新的复杂度从O(d²)降低到O(d)。

解决方法/算法的通俗解释

想象你在教一个只会画画的AI学会“物理常识”。以前的方法是给画打一个总分,AI不知道是画得不像(视觉),还是东西飘在天上(物理)。

  1. HERO模型:相当于给AI配了四个专家评委,一个专门看东西有没有穿模(物理),一个看机器人动作顺不顺(具身),一个看有没有做对事(任务),一个看画得细不细(视觉)。这四个评委打分互不干扰。
  2. HERO-FPO算法:相当于找到了一种捷径,不用去算极其复杂的数学公式,就能用简单的计算告诉AI:“根据你刚才生成视频的‘去噪难度’,这次生成的好坏程度大概是这样”,从而让AI能快速学习改进。

解决方法的具体做法

  1. 构建数据集:利用GPT-4o作为标注员,构建了一个包含约23.5万个样本的4D具身偏好数据集,每个样本都有四个维度的评分。
  2. 训练HERO:基于InternVideo2,设计四个解耦的奖励头,通过特定的损失函数(维度特异性损失+整体偏好正则化)训练模型。
  3. 微调策略:使用Cosmos作为基础世界模型,通过HERO-FPO算法,利用HERO提供的多维奖励信号,通过PPO算法对模型进行后训练优化。

基于前人的哪些方法

  1. 基础生成模型采用了Cosmos(基于流匹配的视频生成模型)。
  2. 奖励模型构建参考了Bradley-Terry偏好学习模型。
  3. 强化学习框架基于PPO(近端策略优化),但对其进行了针对流模型的理论改造。

实验设置、数据、评估方式、结论

  1. 数据:使用RH20T数据集进行偏好数据生成和评估,Bridge V2数据集进行模型微调。
  2. 评估:提出了ReWorldBench基准,包含物理推理、逻辑规划、运动学执行和生成保真度四个维度。同时使用FVD、SSIM等视觉指标。
  3. 结论:ReWorld在ReWorldBench的四个维度上比基线模型(Cosmos-SFT)提升了15-25%,人类偏好评级超过85%。证明了该方法能有效解决“物理恐怖谷”问题,且不牺牲视觉质量。

提到的同类工作

  1. Cosmos:大规模视频生成模型,ReWorld的基础模型和主要对比对象。
  2. CogVideoX / Wan2.1:其他SOTA的文本到视频生成模型,用于对比评估。
  3. RLHF (InstructGPT等):在大语言模型中应用人类反馈强化学习的先驱工作,ReWorld将其思想迁移至视频生成领域。
  4. Direct Preference Optimization (DPO):用于对比说明流模型与扩散模型在优化目标上的不同。

和本文相关性最高的3个文献

  1. **Cosmos **:本文直接基于该模型进行改进,是本文的基础架构。
  2. **InternVideo2 **:本文提出的HERO奖励模型的视觉主干网络,是实现多维特征提取的关键。
  3. **Flow Matching / CFM理论工作 **:本文算法理论推导的基础,特别是HERO-FPO中的CFM-Likelihood Proxy建立在这些工作的数学定义之上。

我的

视频生成工作,用的cosmos-transfer1,flow-based模型。提出了RL算法,可以训这类模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:15:14

学长亲荐 9 个降AI率网站,千笔助你轻松降AIGC

AI降重工具,助你轻松应对论文挑战 在当前学术写作中,AI生成内容(AIGC)的普及让越来越多的学生面临“AI痕迹明显”“查重率偏高”的困扰。尤其对于本科生来说,如何在保持论文逻辑与语义的前提下,有效降低AI…

作者头像 李华
网站建设 2026/4/23 13:02:07

SSM银行管理系统275d1(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面

系统程序文件列表 系统项目功能:用户,柜员,账户信息,存款信息,取款信息,转账信息,贷款项目,我要贷款,理财类型,理财产品,线下理财,线上理财 SSM银行管理系统开题报告 一、课题研究背景与意义 1.1 研究背景 在数字化金融快速普及的当下,银行作为金融服…

作者头像 李华
网站建设 2026/4/23 12:38:44

飞控冗余模块技术详解

一、什么是飞控冗余模块?简单来说,飞控冗余模块是通过增加额外的硬件、软件或数据通路,在系统发生单一或部分故障时,仍能保证飞行控制系统持续、安全工作的设计。其核心目标是“故障-安全”,即系统在出现故障时&#x…

作者头像 李华
网站建设 2026/4/21 10:15:42

<span class=“js_title_inner“>AI那些趣事系列116:智能问数:让人人都能玩转数据的 AI 黑科技</span>

导读:本文是 “数据拾光者” 专栏的第一百一十六篇文章,这个系列聚焦自然语言处理和大模型相关实践。今天主要是关于智能问数产品技术调研和分享。欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注…

作者头像 李华
网站建设 2026/4/23 11:14:31

GBase8a 三大功能组件、进程及日志介绍(V953版本)

1、GBase 8a MPP Cluster 三大功能组件:Gcluster 组件:负责 SQL 的解析、SQL 优化、分布式执行计划生成、执行调度。 Gcware 组件:用于各节点 GCluster 实例间共享信息,以及控制多副本数据操作时,提供可操作节点,并在多副本操作中&#xff0c…

作者头像 李华