6 个月前

摘要

在三维目标检测中，误漏检（False Negatives, FN）——例如遗漏行人、车辆或其他障碍物的预测——可能在自动驾驶场景中引发潜在危险。尽管此类问题具有严重后果，但当前多数三维检测方法对此类问题的研究仍显不足。本文提出一种通用的检测框架——硬实例探查（Hard Instance Probing, HIP），该方法以多阶段方式识别误漏检样本，并引导模型聚焦于挖掘难以检测的困难实例。针对三维目标检测任务，我们基于该框架构建了FocalFormer3D，一种结构简洁但性能优异的检测器，擅长发现困难目标并提升预测召回率。FocalFormer3D采用多阶段查询生成机制以主动挖掘困难样本，并结合基于框级别的Transformer解码器，高效区分大量候选目标中的真实目标。在nuScenes和Waymo数据集上的实验结果验证了FocalFormer3D的卓越性能。其优势不仅体现在检测任务上，也显著提升了跟踪任务的表现，无论在仅使用激光雷达（LiDAR）的单模态设置，还是多模态设置下均表现优异。值得注意的是，FocalFormer3D在nuScenes检测基准上取得了70.5 mAP和73.9 NDS的优异成绩，而在nuScenes跟踪基准上达到72.1 AMOTA，两项指标均位居nuScenes LiDAR排行榜第一。相关代码已开源，访问地址为：https://github.com/NVlabs/FocalFormer3D。

源 PDF