R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation-深圳市維司達科技有限公司

这篇论文介绍了 R3D2，一个轻量级、一步式 (one-step) 的 diffusion model，旨在解决自动驾驶 (autonomous driving, AD) 仿真中逼真插入完整 3D 资产的挑战。传统的仿真平台虽然可控，但扩展资源消耗大，且存在与真实世界的领域差距 (domain gap)。神经重建方法如 3D Gaussian Splatting (3DGS) 为创建逼真的数字孪生提供了可扩展方案，但由于其基于逐场景优化的方法，往往导致动态对象模型不完整，并集成了光照效果，限制了动态操作和重用性。
R3D2 的核心方法是训练一个模型来为插入的 3D 资产生成 plausible 的渲染效果，例如阴影和一致的光照，从而实现逼真的实时插入。这通过在一个新的数据集 R3D3 上进行训练来实现。R3D3 数据集的构建流程包括三个主要阶段：资产生成 (asset generation)、场景重建与资产重新插入 (scene reconstruction and asset re-insertion) 和数据整理 (data curation)。

资产生成：使用 image-conditioned 3D generative model Amodal3R [44] 从 in-the-wild AD 数据中生成完整的 3DGS 对象资产。Amodal3R 输入包括对象中心的图像裁剪、2D segmentation mask 和 foreground occlusion mask。foreground occlusion mask 通过使用 pix2gestalt [23] 估计 amodal segmentation mask 并与原始 segmentation mask 相减（以及腐蚀操作）获得。生成的资产表示为一组 3D Gaussian primitives。
场景重建与资产重新插入：使用 state-of-the-art 的神经重建方法 SplatAD [9] 重建约 300 个 Waymo Open Dataset (WOD) [37] 序列的虚拟环境。SplatAD 将场景分解为 static background 和 dynamic actors，各由 Gaussian primitives 表示。论文对 SplatAD 进行了微小修改，禁用了 feature splatting 和 CNN 解码器，直接渲染 RGB 颜色，以便于跨场景传输对象。为了构建训练对 ($I_{input}, I_{target}$)，首先移除原始场景中的动态 actor 及其对应的 Gaussian primitives（这也移除了它们投射的阴影）。然后，在移除的位置和姿态 (pose) 插入生成的 3DGS 资产。渲染修改后的场景（static background + 新的 3DGS 资产）得到输入图像 $I_{input}$。原始图像作为目标图像 $I_{target}$。$I_{input}$ 包含几何正确的资产，但缺乏逼真的环境集成效果（如阴影）。
数据整理：由于 Amodal3R 生成的资产可能存在不完美，对生成的资产进行两阶段过滤：首先自动过滤 3D 形状与原始 3D bounding box 尺寸显著偏离的资产；然后进行手动检查，移除不逼真或有渲染瑕疵的资产，最终得到 5071 个高质量资产。这些资产及其重新插入场景构成 R3D3 数据集。

R3D2 模型被形式化为一个图像编辑任务。它是一个 one-step diffusion model，基于蒸馏 (distilled) 的 SD-Turbo [33] 构建，去除文本条件，以 image-to-image 方式工作。与 SDEdit [20] 不同，它从 degraded 的 $I_{input}$ 直接执行一个 backward diffusion step，不额外添加噪声，以更好地保留输入信息。模型架构包含 UNet 和 VAE。为了实时推理速度，使用了蒸馏版本的 VAE [2]，并通过从 VAE encoder 到 decoder 添加 skip connections (zero-initialized zero convolutions) 来保留输入图像细节，遵循 [24, 17, 43]。训练采用 end-to-end 方式，固定 VAE encoder，UNet 和 VAE Decoder 使用 LoRA [12] 进行 fine-tuning，skip connections 从零开始训练。训练分辨率为 1080x1920。损失函数结合了 perceptual LPIPS [51] loss 和 Gram matrix [28] loss：

，

其中,

实验评估表明 R3D2 显著提升了插入资产的逼真度。在 same-scene re-insertion 任务中（资产生成自同一场景并插入回原位），与 Naive Insertion 相比，R3D2 大幅缩小了与 Original Reconstruction (逐场景过拟合) 的 realism 差距，表现在 PSNR, SSIM, LPIPS, CLIP IS, DINO IS 等指标上。定性结果展示了 R3D2 能隐式推断全局光照并生成逼真的阴影和反射。在资产操作 (asset manipulation) 实验中（旋转资产），Original Reconstruction 质量随旋转迅速下降，而 Naive Insertion (+ R3D2) 保持更稳定的质量，R3D2 显著提高了 Naive Insertion 的 realism。R3D2 也成功泛化到 foreign asset insertion 任务，包括 cross-scene (WOD 其他序列)、cross-dataset (PandaSet [46] 重建对象) 和 text-to-3D (TRELLIS [45] 生成对象) 资产。在这些任务中，R3D2 插入效果的 FID 和 FID-A 分数与 same-scene 任务相似，远优于 Naive Insertion。模型效率高，使用蒸馏 VAE 的 R3D2 在 RTX 5090 上可达 13.36 FPS (1080x1920)，支持实时应用，比使用原始 VAE 的 R3D2-BIG 快 3.3 倍，而感知和特征层面的相似性指标仅略有下降。
R3D2 实现了逼真的实时渲染效果，无需依赖计算昂贵的 PBR 或 ray tracing。该方法为 AD 验证提供了创建更具多样性、可控性和高保真度仿真环境的实用步骤。
论文的贡献总结为：1) 提出了轻量级的 diffusion model R3D2，能够实时生成渲染效果，大幅提升插入资产的逼真度。2) 展示了强大的资产操作能力，并泛化到 text-to-3D 生成和跨数据集资产无缝插入等新应用。3) 构建并发布了用于训练 R3D2 的新数据集 R3D3，包含 3D 资产和替换了原 actor 的图像对。
局限性包括数据集创建过程可能引入的资产对齐误差（导致输出偶尔修改几何或位置）以及方法不处理时间一致性，应用于视频帧或多摄像头设置时可能导致闪烁或不一致。未来的工作可以基于视频模型来解决时间和多视角一致性问题。

R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation

突破NCM格式限制：3种高效转换方案让音乐自由流转

STM32F4硬件FPU原理、配置与RTOS实战指南

5个解决方案让DJ与音乐爱好者彻底摆脱NCM格式限制

STM32F407 USB MSC读卡器开发：SD卡与SPI Flash双LUN实现

5大技术突破！League Akari如何用自动化重构英雄联盟游戏体验

nlp_seqgpt-560m与MobaXterm配合使用：远程开发指南