科研快报 |路侧感知新突破：用“多边形”注意力，让摄像头看得更远更准-深圳市維司達科技有限公司

Prism Path

科研快报
CS跨学科顶尖期刊论文资讯

-NO.2025014-

MonoPAM：基于多边形注意力机制的路侧单目3D物体检测
MonoPAM: Roadside monocular 3D object detection with polygonal attention mechanism
期刊：Knowledge-Based Systems （Q1/一区）
发布日期：2025年12月05日
DOI: 10.1016/j.knosys.2025.114790

在车路协同与自动驾驶的领域中，路侧感知系统为车辆提供超越自身视野的上帝视角。然而，这双“天眼”的视力一直存在短板：从高处俯视的摄像头，看到的车辆形状千变万化、大小不一，传统的矩形框检测方法在这里常常“看走眼”。

近期，一项发表在人工智能领域国际顶级期刊《Knowledge-Based Systems》上的研究，为解决这一核心难题提供了新的思路。陕西理工大学数学与计算机科学学院的研究团队提出了名为“MonoPAM”的创新框架，通过一种独特的“多边形注意力机制”，让路侧单目摄像头实现了更精准的3D目标检测。这一成果不仅意味着技术瓶颈的突破，更预示着低成本、高精度的智慧路侧感知正加速向我们驶来。

01 背景介绍：瓶颈在哪？

02 MonoPAM的核心创新：矩形→多边形

创新一：多边形注意力机制

创新二：分层全局-局部特征融合

03 性能结果：实现显著提升 (权威数据集)

04 热点凝练：单目3D目标检测

05 相关推荐：IC-IPPR 2026

01 背景介绍：瓶颈在哪？

要理解这项突破的价值，首先要明白路侧视角的与众不同。我们车内的摄像头（车载视角）通常平视前方，地面与镜头光轴大致平行。而路侧摄像头则高悬于路灯或信号杆上，以俯视角度观察交通流。

这一视角变化带来了两大核心难题：一是姿态多样，尤其在十字路口，车辆朝向各异，其在图像中的投影形状从矩形变为不规则的梯形或更复杂的多边形；二是尺度巨变，近处的车辆看起来很大，远处的车辆则非常小，这种巨大的尺度差异对特征提取提出了极高要求。

传统的检测方法大多依赖矩形边界框和目标中心点特征进行预测。

但在路侧的俯视视角下，矩形框无法紧密贴合变形车辆，造成特征区域包含大量无关背景或丢失关键部位；仅依靠中心点特征，也难以捕捉车辆整体的几何结构和边界信息，导致对车辆尺寸、朝向和距离的估计失准。

02 MonoPAM的核心创新：矩形→多边形

图源[1]

创新一：多边形注意力机制

多边形注意力机制让关注区域“随形而变”。研究团队摒弃了固定形状的矩形注意力窗口，设计了一种能够自适应预测不规则多边形目标区域的注意力机制。

该机制被集成在DETR检测器框架的解码器中。它引导模型中的目标查询向量，不再仅仅聚焦于一个点或一个矩形，而是去关注一个更贴合车辆实际投影形状的多边形区域。

因此，这个多边形区域可以随着车辆姿态和距离动态调整形状，从而更精确地聚合目标本身的特征，有效抑制背景干扰。这相当于为AI模型配备了一副能自动调节形状的“瞄准镜”，无论车辆如何“变形”，都能稳稳锁定关键特征。

创新二：分层全局-局部特征融合

为了应对远近距离车辆尺度变化巨大的问题，团队设计了一个多分支的特征融合模块，这让模型“既见树木又见森林”，具体体现在三个方面：

图源[1]

局部信息增强分支：聚焦于车辆的细粒度特征，增强对轮胎、车窗等局部几何结构的表征能力。
分层融合分支：负责整合来自网络浅层和深层的多尺度特征，确保无论是近处的大车还是远处的小车，都能获得一致且丰富的语义信息。
通道信息增强分支：动态调整各特征通道的重要性，帮助模型在复杂场景中更稳定地识别出远距离目标。

03 性能结果：实现显著提升 (权威数据集)

理论创新需要实践验证。研究团队在路侧3D检测领域两个最具挑战性的公开数据集——Rope3D[链接]和DAIR-V2X-I[链接]上进行了广泛实验。

特性 Rope3D DAIR-V2X-I
发布机构 百度清华大学智能产业研究院(AIR)等
数据规模 约5万张图像，超150万个3D物体约1万帧图像与点云数据
核心视角 纯路侧视角，针对单目3D检测车路协同中的路侧视角，是DAIR-V2X的子集
主要特点 高多样性，摄像头参数、视角多变；专注车辆、行人等目标的3D检测车-路数据时空同步，包含多传感器（相机、激光雷达），支持协同感知研究

特性	Rope3D	DAIR-V2X-I
发布机构	百度	清华大学智能产业研究院(AIR)等
数据规模	约5万张图像，超150万个3D物体	约1万帧图像与点云数据
核心视角	纯路侧视角，针对单目3D检测	车路协同中的路侧视角，是DAIR-V2X的子集
主要特点	高多样性，摄像头参数、视角多变；专注车辆、行人等目标的3D检测	车-路数据时空同步，包含多传感器（相机、激光雷达），支持协同感知研究

结果表明，MonoPAM框架的平均精度显著超越了现有主流方法，尤其在处理长距离目标和交叉路口多样车辆姿态这两个经典难题上，其性能提升更为明显。例如，在DAIR-V2X-I数据集上，MonoPAM的平均精度达到了78.34%，展现了优越的检测能力。

据陕西理工大学官网报道，该成果为车路协同提供了高效、实用的单目视觉解决方案。与依赖激光雷达或多摄像头的方案相比，单目方案成本更低、部署更灵活，这项研究无疑推动了低成本智慧路侧感知技术的实用化进程。

04 热点凝练：单目3D目标检测

学术界正致力于让单目3D感知变得更“聪明”、更“实用”。研究重点从早期依赖几何假设，转向利用更强大的深度学习模型，从图像中挖掘更深层次的几何、上下文和语义线索，以弥补深度信息缺失的先天不足。

研究方向	核心目标	代表工作/思想	解决的关键问题
几何建模增强	更精确地描述目标在图像中的复杂几何形态	MonoPAM 的多边形注意力机制	路侧俯视视角下，车辆姿态多样、矩形框拟合不准的问题
特征融合优化	让网络能同时“看清”近处大目标和远处小目标	MonoPAM 的分层全局-局部特征融合模块	路侧场景中目标尺度变化巨大导致的特征提取与融合困难
仿生与认知启发	模仿人类视觉系统，利用环境线索进行推理	MoVis 框架（利用物体层次关系和颜色序列）	单目图像深度信息缺失，尤其对遮挡目标深度估计不准的问题
低成本实用化	推动高性能单目方案替代昂贵传感器，加速落地	MonoFG 系统（追求媲美激光雷达的低成本方案）	自动驾驶感知系统成本过高，难以大规模商业化部署的问题

但尽管进展迅速，该领域要成熟应用仍面临不少挑战。例如，精度极限问题，在极端天气、重度遮挡或极端光照下，性能仍有较大下降；泛化能力方面，在一个数据集上训练的优秀模型，在另一个环境不同的数据集上性能可能骤降；同时，如何提高实时性与达到轻量化？许多前沿模型计算复杂，如何兼顾精度与速度，以适应车端或路侧设备的实时计算需求是工程关键。

未来的进展可能会集中在多模态融合（与毫米波雷达等低成本传感器结合）、更高效的神经架构设计，以及利用大规模无监督或自监督学习来提升模型泛化能力上。

05 相关推荐：IC-IPPR 2026

我们诚挚发起本次“2026年图像处理与模式识别国际会议 (IC-IPPR 2026)”的征稿，旨在汇聚全球顶尖学者、研发工程师与青年学子，共同搭建一个深度交流、碰撞思想、孕育合作的高端平台。

会议官网与投稿现已开放，我们重点关注（包括但不限于）以下方向：

单目/多目3D目标检测、跟踪与场景理解的新方法与新理论
面向车路协同（V2X）的路侧感知、融合感知与协同感知架构
视觉为中心的深度估计、SLAM与高精地图构建
低功耗、高实时的边缘计算感知模型设计与部署优化
针对自动驾驶场景的开放集识别、长尾分布与域适应研究
基于Rope3D、DAIR-V2X、KITTI、nuScenes等公开数据集的创新性研究

【组织单位】喀什大学、管理与技术大学（UMT）、新加坡机器人学会（RSS）

【会议出版】所有论文将由会议委员会的2-3名专家评审员进行评审。经过仔细的审查过程，所有被接受的论文都将发表在SPIE-The International Society for Optical Engineering《会议论文集》上，并提交给EI Compendex和Scopus进行索引。

【审稿流程】投稿 (全英WORD+PDF) - 稿件收到确认 (1个工作日)-初审(3个工作日内) -告知结果 (接受/拒稿)