11 天前
BEVDistill:用于多视角3D目标检测的跨模态BEV知识蒸馏
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao

摘要
从多视角图像进行3D目标检测是视觉场景理解中的基础且具有挑战性的任务。由于其成本低廉且效率高,多视角3D目标检测展现出广阔的应用前景。然而,由于透视视图缺乏深度信息,准确检测目标极为困难。当前多数方法倾向于采用复杂的图像编码器主干网络,导致其难以在实际场景中部署。相比之下,LiDAR点云在提供空间几何线索方面具有显著优势,能够实现高精度的定位。本文探索将基于LiDAR的检测器引入多视角3D目标检测任务中。不同于直接训练深度预测网络,我们提出在鸟瞰图(Bird-Eye-View, BEV)空间中统一图像与LiDAR特征,并在教师-学生框架下,自适应地实现异构表示之间的知识迁移。为此,我们提出BEVDistill——一种面向多视角3D目标检测的跨模态BEV知识蒸馏(Knowledge Distillation, KD)框架。大量实验表明,所提方法在极具竞争力的基线模型BEVFormer上显著优于现有知识蒸馏方法,且在推理阶段不引入任何额外计算开销。值得注意的是,我们最优模型在nuScenes测试排行榜上取得了59.4的NDS得分,超越了多种基于图像的检测器,达到了当前最优水平。代码将开源,地址为:https://github.com/zehuichen123/BEVDistill。