news 2026/6/10 16:00:21

这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。

全文总结

元宝

研究背景

  1. 研究问题:

    这篇文章旨在解决多模态3D检测稀疏检测器的性能问题。尽管稀疏检测器在计算成本和下游任务适应性方面优于基于鸟瞰图(BEV)的检测器,但现有的稀疏检测器忽略了token表示的质量,导致前景质量不佳和性能有限。

  2. 研究难点:

    该问题的研究难点在于如何提高稀疏检测器中token的质量,特别是在几何结构和类别分布方面的优化。现有的token采样策略依赖于简单的top-k操作,容易导致小物体token的丢失和对象边界的缺失。

  3. 相关工作:

    现有工作主要包括基于LiDAR的3D检测、基于相机的3D检测和多模态3D检测。基于LiDAR的检测器利用点云的几何信息进行精确定位,而基于相机的检测器则通过多视图图像捕捉丰富的语义信息。多模态3D检测方法通过融合LiDAR和相机数据,利用两者的互补优势来提高检测性能。

研究方法

本文提出了一种名为CrossRay3D的稀疏多模态检测器,主要通过Sparse Selector (SS)模块来提高token采样的质量。具体方法如下:

  1. Sparse Selector (SS):

    • Ray-Aware Supervision (RAS): 通过在训练阶段恢复高几何信息,利用从光学中心到物体的射线作为对象结构导向的监督,生成高结构前景token。具体来说,RAS通过射线与地面真实框的交集来标记正负样本,并通过卷积操作进行token采样。

    • Class-balancedSupervision (CBS): 通过调整token的显著性权重,避免在token采样过程中丢失小物体token。CBS损失函数根据地面真实类别的分布重新加权token的显著性,公式如下:

      Wn​={λ,Sigmoid(max(y^​n,c​)),​ if n∈ distribution, otherwise,​

      其中,λ≥1是超参数,y^​n,c​是第n个token的类别概率分布。

  2. Ray Positional Encoding (Ray PE):

    • 为了解决图像和LiDAR数据之间的分布差异,提出了Ray PE,通过采样3D锚点沿射线生成位置编码,映射相机和BEV位置编码到统一的3D空间,实现多模态特征的直接交互。

  3. Decoder and Loss:

    • 使用标准的Transformer解码器,通过Ray PE和潜在空间,查询与多模态稀疏token直接交互,预测3D边界框。损失函数包括CBS损失、分类损失和回归损失,公式如下:

      L=ω1​Lt​+Lcls​(c,c^)+Lreg​(b,b^),

      其中,ω1​是平衡CBS损失的超参数。

实验设计

  1. 数据集:

    • 实验在nuScenes数据集上进行,该数据集包含1000个场景,分为训练集、验证集和测试集,分别包含700、150和150个场景。每个场景包含6个摄像头和1个LiDAR传感器的数据。

  2. 评估指标:

    • 使用官方的nuScenes指标,包括nuScenes Detection Score (NDS)、mean Average Precision (mAP)、mean Average Translation Error (mATE)等。

  3. 实现细节:

    • 图像特征提取使用ResNet50,LiDAR特征提取使用3D稀疏骨干网络。模型在2个A40 GPU上训练20个epoch,批量大小为12。

结果与分析

  1. 主要结果:

    • 在nuScenes测试集上,CrossRay3D达到了74.7%的NDS和72.4%的mAP,超过了现有的最先进方法,并且在推理速度上是其他领先方法的两倍。

    • 在nuScenes验证集上,CrossRay3D也表现出色,特别是在处理遮挡和远距离小物体方面。

  2. 消融实验:

    • RAS的效果: 添加RAS后,CrossRay3D在NDS和mAP上分别提高了1.4%和1.6%,并且计算成本仅增加了0.1 FPS。

    • CBS的效果: CBS损失函数在类平衡监督方面表现出色,特别是在小物体(如障碍物和交通锥)的AP上提高了0.3%。

    • Ray PE的效果: 添加Ray PE后,mAP显著提高了9.3%,证明了其在稀疏特征表示中的有效性。

    • Token保留比例的影响: 减少保留的token数量可以降低计算负载,同时保持较高的检测精度。

总体结论

本文提出了CrossRay3D,一种端到端的稀疏多模态检测器,通过几何结构和类别分布的联合优化,实现了高质量的token采样。实验结果表明,CrossRay3D在nuScenes数据集上达到了最先进的性能,并且在计算效率和鲁棒性方面具有显著优势。未来的工作将集中在进一步优化骨干网络和探索不同模态的互补优势。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:42:18

我在小米推了两年的方向,字节用豆包手机助手做出来了

我在小米推了两年的方向,字节用豆包手机助手做出来了 张和 张和专业讲AI 2025年12月14日 13:12 张和|前小米 8 年 AI 产品负责人|现 AI 创业公司创始人 (做过手机 OS 级 AI、也做过自动驾驶数据闭环,更早在小米 AI 实…

作者头像 李华
网站建设 2026/6/9 18:34:43

EF Core 查询优化实战(基于文档底层原理的6项提升策略)

第一章:EF Core 查询性能优化概述在现代数据驱动的应用程序中,Entity Framework Core(EF Core)作为主流的ORM框架,极大简化了数据库操作。然而,不当的查询使用方式可能导致严重的性能瓶颈,如N1查…

作者头像 李华
网站建设 2026/6/9 19:14:13

【干货收藏】大模型核心技术揭秘:AI超级引擎的构建与优化之路

大模型作为AI新时代的"超级引擎",其关键技术包括Transformer架构作为基础、预训练与微调模型能力、基于人类反馈的强化学习优化输出、模型压缩技术降低资源需求以及安全隐私保护措施。这些技术协同工作,使大模型在自然语言处理、计算机视觉、医…

作者头像 李华
网站建设 2026/6/10 11:50:42

揭秘低代码PHP组件事件触发:3个你必须知道的设计模式

第一章:低代码PHP组件事件触发的核心概念 在现代Web开发中,低代码平台通过可视化界面和预构建模块显著提升了开发效率。PHP作为服务端的重要语言,其与低代码组件的集成依赖于事件驱动机制,实现用户交互与后端逻辑的无缝衔接。事件…

作者头像 李华
网站建设 2026/6/10 16:11:18

揭秘纤维协程任务调度器:如何实现百万级并发的性能突破

第一章:揭秘纤维协程任务调度器的核心理念在现代高并发系统中,纤维协程(Fiber Coroutine)作为一种轻量级执行单元,显著提升了任务调度的效率与资源利用率。其核心理念在于将控制权从操作系统线程转移到用户态调度器&am…

作者头像 李华