6 个月前

计算机视觉

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

摘要

当前的研究主要致力于通过从基于LiDAR或多模态的模型（专家）中迁移知识，提升仅依赖相机的3D目标检测器（学生）的精度。然而，LiDAR特征与相机特征之间存在的域差异，以及在时序融合过程中固有的不兼容性，显著限制了基于知识蒸馏的提升效果。受单模态蒸馏成功经验的启发，我们提出一种面向学生的专家模型，该模型主要依赖相机特征，同时仍能实现与多模态模型相当的性能。为此，本文提出VCD框架，用于提升仅依赖相机的学徒模型，其包含一个面向学徒的多模态专家模型以及一种适应时序融合的蒸馏监督机制。多模态专家模型VCD-E采用与仅相机学徒模型相同的网络结构，以缓解特征差异问题，并引入LiDAR输入作为深度先验，用于重建三维场景，其性能可与其它异构多模态专家模型相媲美。此外，本文还设计了一种细粒度的基于轨迹的蒸馏模块，旨在对场景中每个目标的运动错位进行独立校正。通过上述改进，本文提出的仅依赖相机的学徒模型VCD-A在nuScenes数据集上取得了63.1%的NDS得分，刷新了该任务的最新技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

摘要

当前的研究主要致力于通过从基于LiDAR或多模态的模型（专家）中迁移知识，提升仅依赖相机的3D目标检测器（学生）的精度。然而，LiDAR特征与相机特征之间存在的域差异，以及在时序融合过程中固有的不兼容性，显著限制了基于知识蒸馏的提升效果。受单模态蒸馏成功经验的启发，我们提出一种面向学生的专家模型，该模型主要依赖相机特征，同时仍能实现与多模态模型相当的性能。为此，本文提出VCD框架，用于提升仅依赖相机的学徒模型，其包含一个面向学徒的多模态专家模型以及一种适应时序融合的蒸馏监督机制。多模态专家模型VCD-E采用与仅相机学徒模型相同的网络结构，以缓解特征差异问题，并引入LiDAR输入作为深度先验，用于重建三维场景，其性能可与其它异构多模态专家模型相媲美。此外，本文还设计了一种细粒度的基于轨迹的蒸馏模块，旨在对场景中每个目标的运动错位进行独立校正。通过上述改进，本文提出的仅依赖相机的学徒模型VCD-A在nuScenes数据集上取得了63.1%的NDS得分，刷新了该任务的最新技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供