3 个月前
FocalFormer3D:聚焦难例的3D目标检测
Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez

摘要
在三维目标检测中,误漏检(False Negatives, FN)——例如遗漏行人、车辆或其他障碍物的预测——可能在自动驾驶场景中引发潜在危险。尽管此类问题具有严重后果,但当前多数三维检测方法对此类问题的研究仍显不足。本文提出一种通用的检测框架——硬实例探查(Hard Instance Probing, HIP),该方法以多阶段方式识别误漏检样本,并引导模型聚焦于挖掘难以检测的困难实例。针对三维目标检测任务,我们基于该框架构建了FocalFormer3D,一种结构简洁但性能优异的检测器,擅长发现困难目标并提升预测召回率。FocalFormer3D采用多阶段查询生成机制以主动挖掘困难样本,并结合基于框级别的Transformer解码器,高效区分大量候选目标中的真实目标。在nuScenes和Waymo数据集上的实验结果验证了FocalFormer3D的卓越性能。其优势不仅体现在检测任务上,也显著提升了跟踪任务的表现,无论在仅使用激光雷达(LiDAR)的单模态设置,还是多模态设置下均表现优异。值得注意的是,FocalFormer3D在nuScenes检测基准上取得了70.5 mAP和73.9 NDS的优异成绩,而在nuScenes跟踪基准上达到72.1 AMOTA,两项指标均位居nuScenes LiDAR排行榜第一。相关代码已开源,访问地址为:https://github.com/NVlabs/FocalFormer3D。