北交地平线提出DIVER：扩散+强化的多模态规划新框架-深圳市維司達科技有限公司

点击下方卡片，关注“自动驾驶之心”公众号

戳我->领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Ziying Song等

编辑 | 自动驾驶之心

当前主流自动驾驶系统正加速向端到端范式演进，通过统一的深度网络将感知、预测与规划整合在一起，从多视角传感器数据直接生成车辆未来轨迹或控制指令，在复杂城市场景中展现出良好的整体性能。

然而，现有端到端自动驾驶方法大多仍基于单一专家示范的模仿学习范式进行训练，模型被迫去拟合一条“唯一正确”的专家轨迹。即使引入多模态规划，生成的多条候选轨迹也往往高度聚集在 Ground Truth 附近，缺乏真正有意义的行为多样性。在复杂交互、转弯或不确定性较高的场景中，这种模式坍塌现象会限制系统对多种安全可行决策的探索能力。

近日，来自北京交通大学、地平线机器人、华中科技大学、清华大学、澳门大学、昆士兰大学等机构的研究团队提出了一种面向端到端自动驾驶的多模态规划框架 DIVER（Diffusion + Reinforcement for Diverse End-to-End Driving）。该方法将扩散模型的多模态生成能力与强化学习的目标约束机制相结合，将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题”，从而能够在统一模型中生成多样、可行且符合驾驶语义的候选轨迹。

实验结果表明，DIVER 在 Bench2Drive、nuScenes 等多个公开基准上显著提升了端到端规划的轨迹多样性与安全性，在保持低碰撞率的同时有效拓展了行为覆盖范围，并在闭环评测中展现出更强的复杂场景适应能力，为构建更灵活、更接近人类驾驶决策模式的端到端自动驾驶系统提供了一条新的技术路径。

论文标题：DIVER: Reinforced Diffusion Breaks Imitation Bottlenecks in End-to-End Autonomous Driving
论文链接：https://arxiv.org/abs/2507.04049
项目主页：https://github.com/adept-thu/diver

研究背景

端到端自动驾驶正在快速演进，但在大量真实测试与闭环评测中，一个非常典型的问题始终存在：

车辆的规划行为过于保守、模式单一，难以应对复杂交通场景。

这是因为主流端到端方法大多依赖单一专家示范的模仿学习范式：

模型被迫去“复现一条唯一的 GT 轨迹”，即使引入多模态规划，生成的多条轨迹也会高度聚集在 GT 周围，最终仍然缺乏真正的行为多样性（图1a、图1b）。

具体来说：

单模态规划直接回归一条确定性轨迹，几乎不具备探索能力（图1a）；
多模态规划虽然生成多条候选轨迹，但由于训练仍基于单一 GT 的模仿学习目标（通常以 L1 / L2 或 score matching 形式实现），模型在优化过程中会将概率质量集中到 GT 附近，导致多模态预测出现严重的 mode collapse（图1b）。

相比之下，人类驾驶并不会只“模仿一种动作”：

在同一个场景下，我们可能选择减速、并线、绕行或等待，而这种行为多样性与安全约束的平衡，正是当前端到端模型所缺失的能力。

基于此，论文提出了DIVER（Diffusion + Reinforcement for Diverse E2E Driving）：

一个将扩散模型的多模态生成能力与强化学习的目标约束能力相结合的端到端自动驾驶框架，使模型不仅能“生成多条轨迹”，更能生成多样、可行且安全的驾驶行为（图1c）。

图1. 三种规划范式对比

核心技术

DIVER 的核心思想是：

不再把轨迹生成当作“拟合 GT 的回归问题”，
而是把它当作“在安全与多样性约束下的策略生成问题”。

为此，DIVER 在端到端规划中构建了一个完整的 “扩散生成 + 强化学习优化” 框架（图2），包括：

Policy-Aware Diffusion Generator（PADG）
Reference GT 引导的多模态扩散
GRPO 强化学习优化
多样性 / 安全 / 时序一致性奖励设计

图2. DIVER 整体框架图

多模态扩散规划：打破模仿学习瓶颈

传统扩散规划方法虽然能生成多条轨迹，但仍然受单一 GT 监督，理论上必然收敛到 GT，作者对此给出了严格推导。

DIVER 的关键改进在于：

将扩散模型视为随机策略
不再只用 L1 / L2 回归监督
通过多 Reference GT + 强化学习奖励，显式鼓励多样性

Policy-Aware Diffusion Generator（PADG）

PADG （图3）是 DIVER 的核心模块，其作用是：

在扩散去噪过程中，引入地图、动态体、参考轨迹等条件信息，使生成的每条轨迹都具备清晰语义与可行性。

其结构包括：

轨迹编码（Trajectory Encoder）
条件扩散解码器（Conditional Diffusion Decoder）
地图 / Agent Cross-Attention
Reference GT 引导机制

图3. PADG模块示意图

Reference GT：让每一条轨迹都有“意图”

为避免多模态轨迹全部收缩到同一模式，DIVER 不再只使用一个 GT，而是：

从专家轨迹中构建多个 Reference GT
每个预测轨迹 mode 与一个 Reference GT 对齐
使用 Hungarian Matching 进行一对一匹配监督

这样，每个 mode 都被明确赋予一种驾驶意图（如转弯、让行、并线），从源头上避免 mode collapse。

强化学习（GRPO）：把“好轨迹”定义清楚

仅有多样性还不够，真实驾驶还需要安全与稳定。

DIVER 采用 Group Relative Policy Optimization（GRPO），为扩散生成的轨迹引入多种轨迹级奖励，包括多样性、安全、轨迹一致性与车道保持等

这些奖励共同作用，使模型在“探索更多可能性”的同时，仍然保持驾驶质量。

多样性评估指标（Diversity Metric）

在多模态规划中，仅生成多条轨迹并不等价于“有效多样性”。

如果轨迹之间只是无约束发散，反而可能降低安全性与可执行性。

为此，DIVER 提出了一种新的 Diversity Metric，用于在可行性约束下评估多模态轨迹的真实多样性。

该指标不仅衡量不同轨迹在空间上的差异，还能够避免“无意义分散”的情况，更准确反映多模态规划在行为覆盖与驾驶质量之间的平衡。

在后续实验中，论文均基于该指标对不同方法的多模态规划能力进行对比分析。

性能亮点

在 Bench2Drive 闭环评测中，DIVER 在多项关键指标上显著优于 UniAD、VAD、SparseDrive、DiffusionDrive 等方法(表1）

表1. Bench2Drive(V0.0.3)上的开环、闭环结果和多功能结果

针对“转弯最容易出问题”的场景，论文使用 Turning-nuScenes 数据集进行评测。

结果（表2）显示：

DIVER 的轨迹多样性显著更高

同时碰撞率最低

表2. Turning-nuScenes 规划结果

在 nuScenes 验证集的 6 秒长时预测任务中：

DIVER 在多样性（Div.）上大幅领先

同时保持最低碰撞率

表3. NuScenes验证集上的长期规划结果

总结

DIVER 通过 “扩散模型 + 强化学习” 的统一框架，系统性解决了端到端自动驾驶中长期存在的模仿学习模式坍塌问题。

在多个权威基准中，DIVER 展示了：

显著更高的轨迹多样性
更低的碰撞率
更稳定的长时规划能力
更强的复杂场景泛化能力

这项工作表明：靠模仿学习已不足以支撑真实世界自动驾驶，将生成模型与强化学习结合，是通向“更像人”的自动驾驶的重要一步。

自动驾驶之心

自动驾驶之心招人啦！

北交地平线提出DIVER：扩散+强化的多模态规划新框架

研究背景

核心技术

性能亮点

总结

揭秘AI Agent压测瓶颈：如何通过3步优化实现性能翻倍

终极教程：10分钟在Android设备上实现高质量离线语音识别

数据泄露防线崩溃前夜，你的SC-400风险评估做对了吗？

京东商品列表API接口开发指南

爆火的抖音AI图文带货，用这组礼盒提示词！AI生图张张大片

Waifu Diffusion v1.4：AI绘画新手的奇幻冒险之旅