news 2026/4/23 12:13:53

【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface

快速了解部分

基础信息(英文):

  1. 题目:

  2. 时间年月:2025年12月

  3. 机构名:Peking University (CFCS, School of Computer Science), PKU-AgiBot Lab, AgiBot

  4. 3个英文关键词:Robotic Demonstration Generation, Spatial Generalization, Data Efficiency

1句话通俗总结本文干了什么事情

提出一种名为Real2Edit2Real的框架,通过3D控制界面连接3D可编辑性与2D视觉数据,无需仿真引擎和数字资产,从少量RGB机器人演示中生成多样化、多视图且物理一致的操作演示视频,大幅提升数据效率并解决空间泛化难题。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 机器人演示数据收集成本高,尤其是覆盖多样化空间配置以实现空间泛化时,需大量数据支撑;
  2. 现有仿真驱动方法存在Sim2Real视觉与物理鸿沟,且依赖场景/物体资产,难以直接增强真实数据;
  3. 基于3D点云的方法依赖深度传感器,不兼容主流多视图RGB输入的VLA范式,无法实现纹理级增强;
  4. 视频生成类方法仅优化视觉纹理,无法提升物体空间分布和机器人轨迹的多样性。

核心方法:关键技术、模型或研究设计(简要)

由三个核心模块构成:1. 度量尺度几何重建(混合真实与仿真数据微调VGGT,输出深度图和相机姿态);2. 深度可靠空间编辑(点云编辑+轨迹规划+机器人姿态校正,生成物理一致的深度信号);3. 3D控制视频生成(双注意力机制+深度控制接口+平滑物体重定位,合成多视图一致的操作视频)。

深入了解部分

相比前人创新在哪里

  1. 无仿真依赖:直接基于原始RGB演示生成数据,无需仿真引擎和数字资产,解决可扩展性问题;
  2. 双维度增强:同时实现物体空间轨迹多样化和纹理编辑,兼容主流VLA(视觉-语言-动作)训练范式;
  3. 几何一致性保障:提出混合训练范式提升重建准确性,通过机器人姿态校正确保运动学一致性,避免刚性体伪影;
  4. 极致数据效率:仅需1-5个源演示即可生成等效甚至优于50个真实演示的训练效果,数据效率提升10-50倍;
  5. 灵活扩展性:支持物体高度、背景纹理等扩展编辑,具备统一数据生成框架潜力。

解决方法/算法的通俗解释,以及具体做法

通俗解释

先“还原场景结构”:从机器人多个视角的RGB图像中,重建出真实尺度的3D场景和物体形状;再“编辑运动轨迹”:在3D空间中调整物体位置、规划新的机器人操作路径,同时修正机器人姿态确保动作合理;最后“生成真实视频”:以3D深度信息为核心,结合动作、边缘等线索,生成多视角同步、视觉逼真的操作演示视频。

具体做法
  1. 度量尺度几何重建:混合Agibot-DigitalWorld仿真数据(40K帧)和真实机器人深度数据(100K帧),全参数微调VGGT模型,通过相机损失、深度损失和点图损失优化,输出准确的深度图和相机姿态;
  2. 深度可靠空间编辑:将演示拆分为运动段(自由移动)和技能段(物体交互),随机采样物体变换矩阵,对技能段机器人点云应用相同变换,运动段通过Curobo运动规划生成新轨迹;结合背景修复和深度滤波处理噪声,通过逆运动学(IK)校正机器人姿态;
  3. 3D控制视频生成:基于GE-Sim(Cosmos-Predict2B)微调,采用双注意力机制(视图内注意力+跨视图注意力)保障多视图一致性;以深度为核心控制信号,辅以Canny边缘、动作和射线图;通过平滑插值物体平移/旋转,实现自然的物体重定位。

基于前人的哪些方法

  1. 几何重建:VGGT(Visual Geometry Grounded Transformer)—— 作为基础模型进行微调,解决稀疏视图重建问题;
  2. 视频生成:GE-Sim、Cosmos-Predict2B—— 作为 backbone 进行微调,保障视频生成的视觉质量;
  3. 轨迹生成:MimicGen系列—— 借鉴轨迹分割(运动段/技能段)的思路,适配物体交互逻辑;
  4. 目标分割:Grounded-SAM—— 用于分离前景物体和机器人手臂,支撑点云编辑;
  5. 运动规划:Curobo—— 用于生成运动段的机器人轨迹,确保路径可行性;
  6. 图像编辑:SeedEdit 3.0—— 用于背景修复,填补深度图中的缺失区域。

实验设置、数据、评估方式

实验设置
  • 硬件:Agibot Genie G1机器人,头部+左右手腕3个RGB相机,50cm×40cm工作台;
  • 政策:两种VLA政策(Go-1冻结骨干微调动作专家,π₀.₅全参数微调)+ Diffusion Policy(ViT-S编码器+DINO-v3预训练权重);
  • 训练配置:8张H100 GPU,几何重建训练150K迭代(20小时),视频生成训练20K迭代(60小时),单段20秒30FPS视频生成耗时48.6秒。
数据
  • 训练数据:几何重建(40K仿真帧+100K真实帧),视频生成(7K episodes,64个任务,来自Agibot-World);
  • 测试任务:4个真实世界操作任务(单臂到双臂)—— Mug to Basket(握杯入篮)、Pour Water(倒水)、Lift Box(提箱)、Scan Barcode(扫码);
  • 生成设置:从1-5个源演示中随机采样,生成200个含新颖物体配置的演示,评估时物体随机放置于工作台。
评估方式
  1. 主评估指标:政策在真实机器人上的操作成功率(任务完成次数/总尝试次数,每组20次尝试);
  2. 扩展评估:高度泛化(桌面vs平台高度)、纹理泛化(5种桌面纹理);
  3. 消融实验:验证几何重建质量、机器人姿态校正(RPC)、平滑物体重定位(SOR)、控制条件(深度/边缘)的必要性;
  4. 定性评估:生成视频的多视图一致性、视觉真实性、物体交互合理性。

提到的同类工作

  1. 仿真驱动演示生成:MimicGen、SkillMimicGen、Re3Sim;
  2. 3D高斯 splatting 相关:RoboSplat、Real2Render2Real;
  3. 3D点云编辑生成:DemoGen、R2RGen、UMIGen;
  4. 视频生成类增强:RoboTransfer、MVAug、EgoDemoGen;
  5. 政策模型:Diffusion Policy、Go-1、π₀.₅、OpenVLA。

和本文相关性最高的3个文献

  1. Xue, Z., et al. (2025). DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning. Robotics: Science and Systems (RSS)—— 同类3D点云编辑生成方法,但不支持RGB输入和VLA范式,是本文核心对比基准;
  2. Yu, J., et al. (2025). Real2render2real: Scaling robot data without dynamics simulation or robot hardware. Annual Conference on Robot Learning (CoRL)—— 从人类视频合成演示的代表性工作,依赖3D高斯 splatting 但存在视觉鸿沟,本文针对性解决该问题;
  3. Wang, J., et al. (2025). VGGT: Visual geometry grounded transformer. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)—— 本文几何重建模块的基础模型,通过混合数据微调实现机器人场景适配,是核心技术支撑。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:19:10

为什么顶尖团队都在用Open-AutoGLM沉思?深度剖析其架构优势

第一章:为什么顶尖团队都在用Open-AutoGLM沉思?在人工智能快速演进的今天,顶尖技术团队正将目光聚焦于 Open-AutoGLM —— 一个融合自动推理与大语言模型能力的开源框架。其核心优势在于能够动态理解任务意图、自动生成执行逻辑,并…

作者头像 李华
网站建设 2026/4/23 9:58:38

Open-AutoGLM沉思智能体实战应用(3个真实场景落地案例全曝光)

第一章:Open-AutoGLM沉思智能体概述Open-AutoGLM 是一个基于生成式语言模型的自主推理智能体框架,专注于实现复杂任务的自我分解、反思优化与动态执行。该智能体不仅具备基础的语言理解与生成能力,还融合了多步推理、错误回溯和策略调整机制&…

作者头像 李华
网站建设 2026/4/23 12:38:48

外贸品牌出海技术选型:独立站搭建的核心价值与实操指南

在跨境电商全球化竞争加剧的背景下,外贸品牌出海正从“流量红利驱动”向“技术与资产驱动”转型。传统第三方平台(亚马逊、eBay等)的中心化运营模式,逐渐暴露出规则依赖、数据隔离、品牌弱化等痛点,而独立站凭借自主可…

作者头像 李华
网站建设 2026/4/23 11:25:44

智能体“Open-AutoGLM 沉思”核心技术揭秘(20年AI专家亲述架构设计)

第一章:智能体“Open-AutoGLM 沉思”的诞生背景与愿景在人工智能技术迅猛发展的今天,大语言模型(LLM)已从单一任务执行者逐步演变为具备多模态理解与自主决策能力的智能体。Open-AutoGLM “沉思”正是在这一趋势下应运而生&#x…

作者头像 李华
网站建设 2026/4/23 11:36:06

如何下载抖音视频?这两个方法轻松下载

抖音视频如何轻松下载,这里推荐两个工具 greenvideo 完全免费的视频下载工具,可以直接在线使用,所有浏览器都能使用,手机、电脑,无视操作系统。没有广告,没有限制。 如何使用? 1、打开网站&…

作者头像 李华
网站建设 2026/4/23 12:47:47

搞懂这6 个持续集成工具,领先80%测试人!

开发人员喜欢把写的代码当成自己的孩子,他们会被当成艺术品一样呵护。作为家长,总是会认为自己的孩子是最好的,也会尽全力给自己的孩子最好的,就算有时候会超出自己的能力范围。 最终,孩子会走出去,和其他…

作者头像 李华