11 天前

基于历史目标预测的多视角3D目标检测器时序增强训练

Zhuofan Zong, Dongzhi Jiang, Guanglu Song, Zeyue Xue, Jingyong Su, Hongsheng Li, Yu Liu
基于历史目标预测的多视角3D目标检测器时序增强训练
摘要

本文提出了一种全新的多视角3D检测范式——历史目标预测(Historical Object Prediction, HoP),旨在更有效地利用时序信息。HoP方法的核心思想简洁明了:在当前时刻 $t$,我们基于其相邻帧生成时刻 $t-k$ 的伪鸟瞰图(pseudo Bird's-Eye View, BEV)特征,并利用该特征来预测时刻 $t-k$ 的目标集合。这一设计的动机源于观察到:强制检测器同时捕捉历史时刻中物体的空间位置与运动信息,有助于实现更精准的BEV特征学习。具体而言,我们精心设计了短期与长期时序解码器,能够在不依赖对应时刻相机图像的前提下,生成时刻 $t-k$ 的伪BEV特征。此外,我们还引入了一个可灵活接入的额外目标解码器,用于基于生成的伪BEV特征预测目标。值得注意的是,HoP仅在训练阶段启用,因此在推理阶段不会引入任何额外计算开销。作为一种即插即用(plug-and-play)的方法,HoP可轻松集成至当前先进的BEV检测框架中,如BEVFormer和BEVDet系列。同时,该辅助性HoP机制与主流的时序建模方法具有良好的互补性,能够带来显著的性能提升。我们在nuScenes数据集上开展了大量实验,以全面评估所提HoP方法的有效性。选取了具有代表性的基线方法,包括BEVFormer和BEVDet4D-Depth,进行对比分析。令人惊喜的是,采用ViT-L主干网络的HoP在nuScenes测试集上取得了68.5%的NDS和62.4%的mAP,超越了当前排行榜上所有其他3D目标检测器。相关代码将公开于:https://github.com/Sense-X/HoP。

基于历史目标预测的多视角3D目标检测器时序增强训练 | 最新论文 | HyperAI超神经