11 天前

X3KD:面向多相机3D目标检测的跨模态、跨任务与跨阶段知识蒸馏

{Fatih Porikli, Senthil Yogamani, Venkatraman Narayanan, Behnaz Rezaei, Varun Ravi Kumar, Shubhankar Borse, Marvin Klingner}
X3KD:面向多相机3D目标检测的跨模态、跨任务与跨阶段知识蒸馏
摘要

近年来,基于激光雷达(LiDAR)的三维目标检测(3DOD)模型取得了显著进展,性能表现极为出色。相比之下,基于多摄像头图像的环视三维目标检测模型由于在从透视视图(Perspective View, PV)特征到三维世界表示的视图变换过程中缺乏深度信息,导致该变换过程存在歧义,因而性能相对不足。本文提出了一种跨模态、跨任务、跨阶段的综合性知识蒸馏框架——X3KD,用于提升多摄像头三维目标检测的性能。具体而言,我们在透视视图特征提取阶段引入了跨任务知识蒸馏(Cross-task Distillation, X-IS),由一个实例分割教师模型提供监督信号,避免了通过视图变换过程带来的模糊误差反向传播问题。在完成视图变换后,我们进一步采用跨模态特征蒸馏(Cross-modal Feature Distillation, X-FD)与对抗训练(Adversarial Training, X-AT),利用基于激光雷达的三维目标检测教师模型所蕴含的信息,优化多摄像头特征在三维世界空间中的表示能力。最后,我们还利用该教师模型进行跨模态输出蒸馏(Cross-modal Output Distillation, X-OD),在预测阶段提供密集的监督信号,进一步提升检测精度。我们在多摄像头三维目标检测的不同阶段进行了详尽的消融实验,验证了各知识蒸馏模块的有效性。最终的X3KD模型在nuScenes和Waymo数据集上均超越了此前的最先进方法,并展现出向基于雷达(RADAR)的三维目标检测任务的良好泛化能力。相关定性结果视频可访问:https://youtu.be/1do9DPFmr38。

X3KD:面向多相机3D目标检测的跨模态、跨任务与跨阶段知识蒸馏 | 最新论文 | HyperAI超神经