【论文自动阅读】Real2Edit2Real: Generating Robotic Demonstrations via a 3D Control Interface-深圳市維司達科技有限公司

题目：
时间年月：2025年12月
机构名：Peking University (CFCS, School of Computer Science), PKU-AgiBot Lab, AgiBot
3个英文关键词：Robotic Demonstration Generation, Spatial Generalization, Data Efficiency

提出一种名为Real2Edit2Real的框架，通过3D控制界面连接3D可编辑性与2D视觉数据，无需仿真引擎和数字资产，从少量RGB机器人演示中生成多样化、多视图且物理一致的操作演示视频，大幅提升数据效率并解决空间泛化难题。

由三个核心模块构成：1. 度量尺度几何重建（混合真实与仿真数据微调VGGT，输出深度图和相机姿态）；2. 深度可靠空间编辑（点云编辑+轨迹规划+机器人姿态校正，生成物理一致的深度信号）；3. 3D控制视频生成（双注意力机制+深度控制接口+平滑物体重定位，合成多视图一致的操作视频）。

先“还原场景结构”：从机器人多个视角的RGB图像中，重建出真实尺度的3D场景和物体形状；再“编辑运动轨迹”：在3D空间中调整物体位置、规划新的机器人操作路径，同时修正机器人姿态确保动作合理；最后“生成真实视频”：以3D深度信息为核心，结合动作、边缘等线索，生成多视角同步、视觉逼真的操作演示视频。

度量尺度几何重建：混合Agibot-DigitalWorld仿真数据（40K帧）和真实机器人深度数据（100K帧），全参数微调VGGT模型，通过相机损失、深度损失和点图损失优化，输出准确的深度图和相机姿态；
深度可靠空间编辑：将演示拆分为运动段（自由移动）和技能段（物体交互），随机采样物体变换矩阵，对技能段机器人点云应用相同变换，运动段通过Curobo运动规划生成新轨迹；结合背景修复和深度滤波处理噪声，通过逆运动学（IK）校正机器人姿态；
3D控制视频生成：基于GE-Sim（Cosmos-Predict2B）微调，采用双注意力机制（视图内注意力+跨视图注意力）保障多视图一致性；以深度为核心控制信号，辅以Canny边缘、动作和射线图；通过平滑插值物体平移/旋转，实现自然的物体重定位。

训练数据：几何重建（40K仿真帧+100K真实帧），视频生成（7K episodes，64个任务，来自Agibot-World）；
测试任务：4个真实世界操作任务（单臂到双臂）—— Mug to Basket（握杯入篮）、Pour Water（倒水）、Lift Box（提箱）、Scan Barcode（扫码）；
生成设置：从1-5个源演示中随机采样，生成200个含新颖物体配置的演示，评估时物体随机放置于工作台。

Xue, Z., et al. (2025). DemoGen: Synthetic Demonstration Generation for Data-Efficient Visuomotor Policy Learning. Robotics: Science and Systems (RSS)—— 同类3D点云编辑生成方法，但不支持RGB输入和VLA范式，是本文核心对比基准；
Yu, J., et al. (2025). Real2render2real: Scaling robot data without dynamics simulation or robot hardware. Annual Conference on Robot Learning (CoRL)—— 从人类视频合成演示的代表性工作，依赖3D高斯 splatting 但存在视觉鸿沟，本文针对性解决该问题；
Wang, J., et al. (2025). VGGT: Visual geometry grounded transformer. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)—— 本文几何重建模块的基础模型，通过混合数据微调实现机器人场景适配，是核心技术支撑。