news 2026/4/23 16:41:17

R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

这篇论文介绍了 R3D2,一个轻量级、一步式 (one-step) 的 diffusion model,旨在解决自动驾驶 (autonomous driving, AD) 仿真中逼真插入完整 3D 资产的挑战。传统的仿真平台虽然可控,但扩展资源消耗大,且存在与真实世界的领域差距 (domain gap)。神经重建方法如 3D Gaussian Splatting (3DGS) 为创建逼真的数字孪生提供了可扩展方案,但由于其基于逐场景优化的方法,往往导致动态对象模型不完整,并集成了光照效果,限制了动态操作和重用性。
R3D2 的核心方法是训练一个模型来为插入的 3D 资产生成 plausible 的渲染效果,例如阴影和一致的光照,从而实现逼真的实时插入。这通过在一个新的数据集 R3D3 上进行训练来实现。R3D3 数据集的构建流程包括三个主要阶段:资产生成 (asset generation)、场景重建与资产重新插入 (scene reconstruction and asset re-insertion) 和数据整理 (data curation)。

资产生成: 使用 image-conditioned 3D generative model Amodal3R [44] 从 in-the-wild AD 数据中生成完整的 3DGS 对象资产。Amodal3R 输入包括对象中心的图像裁剪、2D segmentation mask 和 foreground occlusion mask。foreground occlusion mask 通过使用 pix2gestalt [23] 估计 amodal segmentation mask 并与原始 segmentation mask 相减(以及腐蚀操作)获得。生成的资产表示为一组 3D Gaussian primitives。
场景重建与资产重新插入: 使用 state-of-the-art 的神经重建方法 SplatAD [9] 重建约 300 个 Waymo Open Dataset (WOD) [37] 序列的虚拟环境。SplatAD 将场景分解为 static background 和 dynamic actors,各由 Gaussian primitives 表示。论文对 SplatAD 进行了微小修改,禁用了 feature splatting 和 CNN 解码器,直接渲染 RGB 颜色,以便于跨场景传输对象。为了构建训练对 ($I_{input}, I_{target}$),首先移除原始场景中的动态 actor 及其对应的 Gaussian primitives(这也移除了它们投射的阴影)。然后,在移除的位置和姿态 (pose) 插入生成的 3DGS 资产。渲染修改后的场景(static background + 新的 3DGS 资产)得到输入图像 $I_{input}$。原始图像作为目标图像 $I_{target}$。$I_{input}$ 包含几何正确的资产,但缺乏逼真的环境集成效果(如阴影)。
数据整理: 由于 Amodal3R 生成的资产可能存在不完美,对生成的资产进行两阶段过滤:首先自动过滤 3D 形状与原始 3D bounding box 尺寸显著偏离的资产;然后进行手动检查,移除不逼真或有渲染瑕疵的资产,最终得到 5071 个高质量资产。这些资产及其重新插入场景构成 R3D3 数据集。

R3D2 模型被形式化为一个图像编辑任务。它是一个 one-step diffusion model,基于蒸馏 (distilled) 的 SD-Turbo [33] 构建,去除文本条件,以 image-to-image 方式工作。与 SDEdit [20] 不同,它从 degraded 的 $I_{input}$ 直接执行一个 backward diffusion step,不额外添加噪声,以更好地保留输入信息。模型架构包含 UNet 和 VAE。为了实时推理速度,使用了蒸馏版本的 VAE [2],并通过从 VAE encoder 到 decoder 添加 skip connections (zero-initialized zero convolutions) 来保留输入图像细节,遵循 [24, 17, 43]。训练采用 end-to-end 方式,固定 VAE encoder,UNet 和 VAE Decoder 使用 LoRA [12] 进行 fine-tuning,skip connections 从零开始训练。训练分辨率为 1080x1920。损失函数结合了 perceptual LPIPS [51] loss 和 Gram matrix [28] loss:

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​

其中,

​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​​​​​​​​
实验评估表明 R3D2 显著提升了插入资产的逼真度。在 same-scene re-insertion 任务中(资产生成自同一场景并插入回原位),与 Naive Insertion 相比,R3D2 大幅缩小了与 Original Reconstruction (逐场景过拟合) 的 realism 差距,表现在 PSNR, SSIM, LPIPS, CLIP IS, DINO IS 等指标上。定性结果展示了 R3D2 能隐式推断全局光照并生成逼真的阴影和反射。在资产操作 (asset manipulation) 实验中(旋转资产),Original Reconstruction 质量随旋转迅速下降,而 Naive Insertion (+ R3D2) 保持更稳定的质量,R3D2 显著提高了 Naive Insertion 的 realism。R3D2 也成功泛化到 foreign asset insertion 任务,包括 cross-scene (WOD 其他序列)、cross-dataset (PandaSet [46] 重建对象) 和 text-to-3D (TRELLIS [45] 生成对象) 资产。在这些任务中,R3D2 插入效果的 FID 和 FID-A 分数与 same-scene 任务相似,远优于 Naive Insertion。模型效率高,使用蒸馏 VAE 的 R3D2 在 RTX 5090 上可达 13.36 FPS (1080x1920),支持实时应用,比使用原始 VAE 的 R3D2-BIG 快 3.3 倍,而感知和特征层面的相似性指标仅略有下降。
R3D2 实现了逼真的实时渲染效果,无需依赖计算昂贵的 PBR 或 ray tracing。该方法为 AD 验证提供了创建更具多样性、可控性和高保真度仿真环境的实用步骤。
论文的贡献总结为:1) 提出了轻量级的 diffusion model R3D2,能够实时生成渲染效果,大幅提升插入资产的逼真度。2) 展示了强大的资产操作能力,并泛化到 text-to-3D 生成和跨数据集资产无缝插入等新应用。3) 构建并发布了用于训练 R3D2 的新数据集 R3D3,包含 3D 资产和替换了原 actor 的图像对。
局限性包括数据集创建过程可能引入的资产对齐误差(导致输出偶尔修改几何或位置)以及方法不处理时间一致性,应用于视频帧或多摄像头设置时可能导致闪烁或不一致。未来的工作可以基于视频模型来解决时间和多视角一致性问题。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 14:49:21

突破NCM格式限制:3种高效转换方案让音乐自由流转

突破NCM格式限制:3种高效转换方案让音乐自由流转 【免费下载链接】NCMconverter NCMconverter将ncm文件转换为mp3或者flac文件 项目地址: https://gitcode.com/gh_mirrors/nc/NCMconverter 你是否注意到精心收藏的音乐文件被限制在特定应用中?当更…

作者头像 李华
网站建设 2026/4/23 16:15:39

STM32F4硬件FPU原理、配置与RTOS实战指南

1. FPU硬件浮点单元基础原理与工程价值 在嵌入式系统开发中,浮点运算性能往往成为算法类应用(如数字信号处理、图像变换、传感器融合、PID高阶控制)的关键瓶颈。STM32F4系列作为Cortex-M4内核的代表芯片,其核心竞争力之一正是集成于片内的硬件浮点运算单元(Floating-Poin…

作者头像 李华
网站建设 2026/4/23 13:03:13

5个解决方案让DJ与音乐爱好者彻底摆脱NCM格式限制

5个解决方案让DJ与音乐爱好者彻底摆脱NCM格式限制 【免费下载链接】NCMconverter NCMconverter将ncm文件转换为mp3或者flac文件 项目地址: https://gitcode.com/gh_mirrors/nc/NCMconverter 你是否曾因下载的NCM音乐文件无法在专业设备播放而错失演出机会?作…

作者头像 李华
网站建设 2026/4/21 19:38:56

STM32F407 USB MSC读卡器开发:SD卡与SPI Flash双LUN实现

1. USB读卡器(Slave)实验:STM32F407全速设备模式深度解析 USB读卡器实验是嵌入式系统中一个典型的、兼具实用性与教学价值的USB设备类(Device Class)项目。它将STM32F407开发板配置为一个标准的USB大容量存储设备(Mass Storage Class, MSC),使其能够被PC主机识别为一个…

作者头像 李华
网站建设 2026/4/23 14:46:44

5大技术突破!League Akari如何用自动化重构英雄联盟游戏体验

5大技术突破!League Akari如何用自动化重构英雄联盟游戏体验 【免费下载链接】LeagueAkari ✨兴趣使然的,功能全面的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/LeagueAkari 当…

作者头像 李华
网站建设 2026/4/23 16:07:23

nlp_seqgpt-560m与MobaXterm配合使用:远程开发指南

nlp_seqgpt-560m与MobaXterm配合使用:远程开发指南 1. 为什么需要MobaXterm来开发nlp_seqgpt-560m 在实际工作中,我们很少直接在本地电脑上运行像nlp_seqgpt-560m这样的大模型。这类模型通常需要GPU资源,而个人笔记本的显卡往往难以满足需求…

作者头像 李华