LV-DOT —— 用于自主机器人导航的激光雷达-视觉动态障碍物检测与跟踪文献解读-深圳市維司達科技有限公司

LV-DOT: LiDAR-Visual Dynamic Obstacle Detection and Tracking for Autonomous Robot Navigation

文献信息
标题：LV-DOT: LiDAR-visual dynamic obstacle detection and tracking for autonomous robot navigation
作者：Zhefan Xu, Haoyu Shen, Xinming Han, Hanyu Jin, Kanlong Ye, Kenji Shimada (Carnegie Mellon University)
发表：arXiv:2502.20607v1 [cs.RO], 2025年2月28日
开源代码：https://github.com/Zhefan-Xu/LV-DOT
实验视频：https://youtu.be/rRvgTulWqvk

一、研究背景与关键科学问题

1.1 研究背景

自主机器人在室内环境中执行导航任务时，对动态障碍物的准确感知是保障安全运行的核心前提。近年来，尽管计算机视觉与自动驾驶领域已涌现出大量高精度的三维目标检测与跟踪方法，但这些方法通常依赖昂贵的传感器组合（如高线束激光雷达、高分辨率相机阵列）以及高性能GPU进行大规模神经网络推理，难以直接迁移到计算资源极度受限的室内移动机器人平台。

为此，基于机载相机或轻量型激光雷达的轻量化感知算法逐渐成为研究热点。然而，单一传感器方案存在固有的物理局限性：

相机：可靠深度感知范围通常不超过5米，视场角（FOV）受限，且深度数据噪声较大；
激光雷达：更新频率低、点云稀疏，缺乏丰富的视觉纹理特征，容易导致误检。

1.2 关键科学问题与技术挑战

本文将室内移动机器人动态障碍物感知的核心挑战归纳为以下三方面：

计算资源受限下的实时性挑战
不同于配备强大GPU的自动驾驶车辆，移动机器人（如微型四旋翼无人机）的机载算力极为有限，导致基于大型深度学习网络的检测方法难以实时运行。
复杂环境下的检测精度挑战
在杂乱室内环境中，仅依靠单一传感器进行障碍物检测会产生大量误检（false positives）与漏检（false negatives）。无论是基于图像的方法、点云聚类方法还是地图更新方法，都难以在精度与效率之间取得良好平衡。
动态/静态分类的鲁棒性挑战
由于传感器噪声与定位误差，从检测到的障碍物中准确识别出真正的动态障碍物十分困难。现有基于遮挡原理（occlusion）或占据地图（occupancy map）更新的方法往往过于保守，导致将静态障碍物误判为动态，引发不必要的高延迟避障响应。

二、研究方法与技术路线

2.1 总体框架

LV-DOT 是一种多传感器融合的动态障碍物检测与跟踪框架，其系统架构如图2所示。框架接收机载激光雷达、RGB-D相机以及机器人里程计三类输入，依次经过四个核心模块处理：

激光雷达障碍物检测模块（LiDAR Obstacle Detection）
视觉障碍物检测模块（Visual Obstacle Detection）
激光雷达-视觉融合模块（LiDAR-Visual Fusion）
跟踪与动态识别模块（Tracking and Dynamic Identification）

最终输出经分类后的动态障碍物三维包围盒及其状态估计（位置、速度、加速度）。

2.2 激光雷达障碍物检测（LiDAR Detection）

该模块的目标是从每一帧激光雷达扫描中提取未分类的三维轴对齐包围盒（axis-aligned bounding boxes, AABBs）。处理流程如下：

降采样滤波
- 距离滤波（Range Filter）：仅保留机器人一定范围内的点，并将其转换至世界坐标系；
- 概率距离滤波（Distance Filter）：基于指数概率模型控制点的保留密度，使近距离区域保留更多点、远距离区域更稀疏，从而在计算负载与感知精度之间取得平衡：
  Pdist(pi,probot)=exp⁡(−∥pi−probot∥2σdist2) P_{\text{dist}}(p_i, p_{\text{robot}}) = \exp\left(-\frac{\|p_i - p_{\text{robot}}\|^2}{\sigma_{\text{dist}}^2}\right)Pdist(pi,probot)=exp(−σdist2∥pi−probot∥2)
- 体素滤波（Voxel Filter）：将总点数限制在Nmax⁡=3000N_{\max}=3000Nmax=3000以内，确保实时性。
聚类与包围盒提取
采用经典DBSCAN密度聚类算法对降采样后的点云进行聚类，每个聚类簇即对应一个障碍物。通过计算簇在三维世界坐标系各轴上的最小/最大值，直接提取轴对齐包围盒的中心与尺寸。

2.3 视觉障碍物检测（Visual Detection）

视觉检测模块分为深度检测与颜色检测两个子模块，分别服务于不同的融合目标。

2.3.1 视觉深度检测（Visual Depth Detection）

深度检测模块的功能与激光雷达模块类似，生成未分类的三维包围盒，但运行频率更高、近距离精度更好。由于相机深度数据噪声显著，直接聚类会产生大量误检，因此本文采用**集成检测（Ensemble Detection）**策略，融合两个低精度但高效率的检测器：

DBSCAN 检测器：将深度图像反投影为三维点云，经体素降采样后使用 DBSCAN 聚类并计算三维包围盒；
U-depth 检测器：直接从深度图像生成 U-depth 图（距离直方图的鸟瞰图表示），利用文献[12]中的线分组方法提取障碍物的厚度与宽度，再通过深度连续性分析计算高度，最终生成二维包围盒并反投影至三维空间。

集成策略：计算两个检测器输出包围盒的三维 IoU（Intersection over Union），仅保留 IoU 超过用户定义阈值的匹配结果，其余视为误检剔除。匹配成功的包围盒通过计算最小外接包围盒进行融合，得到最终深度检测结果。

2.3.2 视觉颜色检测（Visual Color Detection）

颜色检测模块直接利用 RGB 图像识别动态障碍物，输出二维图像平面上的包围盒。具体实现采用预训练的轻量级深度学习检测器（如YOLOv11），通过预设类别（如行人）筛选出动态目标。该模块的结果主要用于后续融合阶段对动态障碍物的精确定位与分类。

2.4 激光雷达-视觉检测融合（LiDAR-Visual Fusion）

融合模块整合三类检测结果，通过算法1所示的融合策略生成更精确的障碍物包围盒：

SlidarS_{\text{lidar}}Slidar：激光雷达三维检测，提供360°长距离感知；
Svisual3DS_{\text{visual3D}}Svisual3D：视觉深度三维检测，提供高频率近距离感知；
Svisual2DS_{\text{visual2D}}Svisual2D：视觉颜色二维检测，提供基于语义类别的动态目标识别。

融合步骤：

误检抑制：遍历视觉深度检测结果，与激光雷达三维包围盒进行 IoU 匹配。若匹配成功，计算两者的最小外接包围盒作为融合结果；未匹配的视觉检测视为误检并剔除。
过合并拆分：激光雷达与深度聚类可能将相邻障碍物合并为单个过大的包围盒。对此，将融合后的三维包围盒重投影至二维图像平面，与颜色检测的二维包围盒进行 IoU 比对。若一个重投影框匹配到多个颜色检测框，则按颜色框的位置将其拆分为多个小包围盒，再反投影回三维空间。
全向补全：将位于相机视场之外的激光雷达检测直接加入最终输出，确保360°无盲区。

2.5 跟踪与动态识别（Tracking & Dynamic Identification）

2.5.1 特征关联（Feature-based Association）

为实现跨帧障碍物关联，本文构造了包含10维特征的特征向量：
f(oi)=[pos(oi)dim(oi)len(oi)std(oi)]T∈R10 f(o_i) = \begin{bmatrix} \text{pos}(o_i) & \text{dim}(o_i) & \text{len}(o_i) & \text{std}(o_i) \end{bmatrix}^T \in \mathbb{R}^{10}f(oi)=[pos(oi)dim(oi)len(oi)std(oi)]T∈R10
其中包含包围盒的位置、尺寸、内部点云数量以及点云标准差。通过计算当前帧与前一帧特征向量间的加权余弦相似度，并结合 IoU 阈值验证，有效避免了基于最近中心点匹配常见的错配问题。

2.5.2 卡尔曼滤波状态估计

对关联成功的障碍物，采用卡尔曼滤波器估计其状态（位置、速度、加速度）。运动模型采用恒加速度模型（constant acceleration model）：
Xt∣t−1=AXt−1+Q X_{t|t-1} = A X_{t-1} + QXt∣t−1=AXt−1+Q
观测模型通过检测位置差分估计速度与加速度：
Vt=Pt−Pt−1δt,At=Vt−Vt−1δt V_t = \frac{P_t - P_{t-1}}{\delta t}, \quad A_t = \frac{V_t - V_{t-1}}{\delta t}Vt=δtPt−Pt−1,At=δtVt−Vt−1

2.5.3 动态障碍物分类

本文设计了两类互补的动态判定机制，满足任一条件即标记为动态：

视觉语义校验：将卡尔曼滤波后的三维包围盒重投影至图像平面，与颜色检测的二维动态目标框计算 IoU。若 IoU 超过阈值，则判定为动态。
运动学+点云位移校验：
- 初筛：卡尔曼滤波估计的速度幅值超过阈值；
- 精筛：对包围盒内每一点，计算其与上一帧点云中最近点的距离。若多数点的位移超过阈值，则确认为动态，否则判为静态。

该双重校验机制有效抑制了由定位噪声引起的速度估计误差，显著提升了动态识别的鲁棒性。

三、实验设计与评估

3.1 实验平台与数据集

硬件平台：轻量级四旋翼无人机，搭载 Intel RealSense D435i RGB-D 相机（FOV: 87°×58°）与 Livox Mid-360 激光雷达（FOV: 360°×59°），机载计算单元为 NVIDIA Jetson Orin NX。
定位：采用 Fast-LIO2 激光雷达惯性里程计。
软件：基于 ROS 与 C++ 实现。
数据集：由于现有自动驾驶数据集（KITTI、nuScenes）面向室外场景，且 DOALS 数据集仅有激光雷达数据，作者自建了室内数据集。该数据集涵盖7种不同室内场景及2组动作捕捉实验，共635帧人工标注数据，采样间隔1秒。

3.2 对比方法与评估指标

选取两个代表性的轻量级激光雷达动态检测算法作为基准：

Dynablox[7]：基于体素地图状态更新的动态物体检测；
M-detector[6]：基于遮挡原理的动态点检测。

评估指标包括：

Precision（精确率）、Recall（召回率）、F1 Score
平均位置误差（Positional Error）
在不同 IoU 阈值（0.3 / 0.5 / 0.7）下进行三维包围盒级别的定量评估。

3.3 定量结果

方法	IoU=0.3 (F1)	IoU=0.5 (F1)	IoU=0.7 (F1)	位置误差
Dynablox [7]	0.402	0.363	0.277	0.124m
M-detector [6]	0.734	0.678	0.569	0.094m
LV-DOT w/o visual	0.787	0.740	0.599	0.091m
LV-DOT w/o LiDAR	0.292	0.274	0.238	0.129m
LV-DOT (Ours)	0.794	0.764	0.641	0.093m

实验结果表明：

LV-DOT 在所有 IoU 阈值下均取得最高的 F1 分数，综合性能优于两个基准方法；
M-detector 召回率较高，但精确率偏低，常将静态障碍物误判为动态；
Dynablox 针对稠密激光雷达设计，在轻量型稀疏激光雷达上表现不佳；
消融实验显示：去除视觉模块后召回率明显下降；去除激光雷达模块后性能急剧退化，验证了多传感器融合的必要性。

3.4 实时性能

各模块平均运行时间如下：

模块	平均耗时 (ms)	标准差 (ms)
激光雷达检测	8.34	4.15
视觉深度检测	10.22	3.46
视觉颜色检测 (YOLO)	34.15	0.91
激光雷达-视觉融合	0.40	0.13
跟踪与识别	2.29	0.75

由于各模块可并行执行，系统整体可达到实时运行要求（视觉颜色检测接近30Hz），满足实际导航任务对动态障碍物感知的时效性需求。

3.5 物理机器人实验

在真实环境中开展了两类验证实验：

悬停避障实验：四旋翼悬停于固定位置，多名行人主动走向无人机，系统实时检测并跟踪动态行人，引导无人机成功躲避。
路径跟踪避障实验：无人机沿预设路径飞行，行人主动阻挡路径，系统在保证导航效率的同时实现安全避障。

实验视频验证了 LV-DOT 在真实动态场景中的实用性与可靠性。

四、主要创新点与学术贡献

4.1 核心创新点

轻量级多传感器融合感知框架
首次面向室内移动机器人平台，系统性地融合轻量型激光雷达（Livox Mid-360）与 RGB-D 相机的互补优势：激光雷达提供360°长距离高精度深度感知，相机提供高频率近距离稠密深度与丰富视觉语义特征。该框架以 ROS 包形式完全开源，具有良好的可复现性与工程实用价值。
鲁棒的集成检测与融合策略
提出基于 IoU 匹配的集成检测融合算法，通过多检测器互校验抑制单一传感器的误检；进一步利用二维语义检测结果对三维聚类过合并问题进行拆分修正，显著提升了复杂场景下的检测精度。
双重校验的动态障碍物分类机制
结合视觉语义重投影与卡尔曼滤波运动估计+点云位移分析，设计了互补的动态判定策略。该机制有效克服了单一运动学阈值方法在传感器噪声下的不稳定性，实现了更鲁棒的动态/静态分类。

4.2 学术贡献

问题层面：明确指出了室内移动机器人动态障碍物感知中"计算受限-精度需求-鲁棒分类"三者之间的矛盾，并通过多传感器融合与轻量级工程优化给出了系统性解决方案。
方法层面：将传统点云处理（DBSCAN、体素滤波）、经典计算机视觉（U-depth、YOLO）与现代状态估计（卡尔曼滤波）有机结合，提出了一套不依赖重型深度学习模型的高效感知流水线。
实验层面：构建了面向室内移动机器人的多场景标注数据集，并在真实四旋翼平台上完成了从感知到导航闭环的完整验证，为后续研究提供了可靠的基准与参考。

五、局限性与未来展望

作者在文中也坦诚指出了当前框架的局限性：

当障碍物过于接近激光雷达且位于相机视场之外时，包围盒关联可能失败；
动态障碍物间发生遮挡时，被遮挡目标可能丢失跟踪；
系统仍存在少量误检与漏检，需进一步提升可靠性。

未来工作可围绕以下方向展开：

引入时序一致性约束与更鲁棒的数据关联算法（如深度特征匹配）以改善遮挡场景下的跟踪连续性；
探索基于注意力机制或轻量化 Transformer 的融合策略，在保持实时性的同时进一步提升检测精度；
将框架扩展至多机协同感知场景，利用分布式观测提升动态环境理解的全面性。

六、总结

LV-DOT 是一项面向室内自主机器人导航的激光雷达-视觉动态障碍物检测与跟踪研究。该工作针对移动机器人计算资源受限、单传感器感知能力不足以及动态分类鲁棒性差等核心挑战，提出了一个融合激光雷达360°长距离感知与相机高频率语义感知的轻量级框架。通过集成检测、多源融合、特征关联跟踪以及双重动态校验等关键技术，LV-DOT 在自建数据集与真实四旋翼平台上均展现出优异的实时性能与感知精度，为室内动态环境下的机器人安全导航提供了可靠的技术支撑。该框架已开源，具有较高的工程实用价值与学术参考意义。