11 天前

基于视觉中心的多模态专家知识的3D目标检测

Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li
基于视觉中心的多模态专家知识的3D目标检测
摘要

当前的研究主要致力于通过从基于LiDAR或多模态的模型(专家)中迁移知识,提升仅依赖相机的3D目标检测器(学生)的精度。然而,LiDAR特征与相机特征之间存在的域差异,以及在时序融合过程中固有的不兼容性,显著限制了基于知识蒸馏的提升效果。受单模态蒸馏成功经验的启发,我们提出一种面向学生的专家模型,该模型主要依赖相机特征,同时仍能实现与多模态模型相当的性能。为此,本文提出VCD框架,用于提升仅依赖相机的学徒模型,其包含一个面向学徒的多模态专家模型以及一种适应时序融合的蒸馏监督机制。多模态专家模型VCD-E采用与仅相机学徒模型相同的网络结构,以缓解特征差异问题,并引入LiDAR输入作为深度先验,用于重建三维场景,其性能可与其它异构多模态专家模型相媲美。此外,本文还设计了一种细粒度的基于轨迹的蒸馏模块,旨在对场景中每个目标的运动错位进行独立校正。通过上述改进,本文提出的仅依赖相机的学徒模型VCD-A在nuScenes数据集上取得了63.1%的NDS得分,刷新了该任务的最新技术水平。

基于视觉中心的多模态专家知识的3D目标检测 | 最新论文 | HyperAI超神经