6 个月前

摘要

激光雷达（LiDAR）与摄像头是自动驾驶领域中三维目标检测的两种关键传感器。尽管传感器融合技术在该领域日益流行，但针对图像质量较差（如光照不良）或传感器存在偏差等不利条件下的鲁棒性研究仍显不足。现有融合方法在这些条件下表现脆弱，主要原因在于依赖标定矩阵建立的激光点与图像像素之间的硬性对应关系。为此，本文提出TransFusion，一种基于软关联机制的鲁棒激光雷达-摄像头融合方法，以有效应对图像质量退化等问题。具体而言，TransFusion采用基于Transformer解码器的结构，包含卷积主干网络和检测头。解码器的第一层通过一组稀疏的目标查询（object queries）从激光点云中预测初始边界框；第二层则自适应地将目标查询与图像中的有效特征进行融合，充分利用空间位置关系与上下文语义信息。Transformer中的注意力机制使模型能够动态判断从图像中获取信息的时机与内容，从而实现更鲁棒且高效的融合策略。此外，我们设计了一种图像引导的目标查询初始化策略，以提升对点云中难以检测目标的识别能力。在大规模数据集上的实验表明，TransFusion达到了当前最优的检测性能。大量实验证明了其在图像质量下降及标定误差情况下的强鲁棒性。同时，我们将该方法拓展至三维目标跟踪任务，在nuScenes跟踪挑战赛中取得第一名的成绩，充分验证了其有效性与良好的泛化能力。

源 PDF