
摘要
单帧数据所包含的信息是有限的,这限制了现有基于视觉的多相机三维目标检测范式的表现。为了从根本上突破该领域的性能瓶颈,本文提出了一种名为BEVDet4D的新范式,将原有的可扩展BEVDet框架从仅限空间维度的三维空间拓展至时空四维空间。通过对原始BEVDet框架进行少量改进,仅需融合前一帧与当前帧对应的特征信息,即可实现对时序线索的有效利用。在此机制下,BEVDet4D在几乎不增加计算开销的前提下,通过查询与对比两个候选特征,成功引入了时间维度的信息。此外,我们通过从学习目标中去除自车运动(ego-motion)和时间因素,显著简化了速度预测任务。实验结果表明,BEVDet4D在具备强泛化能力的同时,将速度预测误差降低了高达62.9%。这使得基于视觉的方法首次在该任务上达到与依赖激光雷达(LiDAR)或雷达(radar)的方法相媲美的水平。在挑战性基准数据集nuScenes上,采用高性能配置的BEVDet4D-Base取得了54.5%的NDS(NuScenes Detection Score)新纪录,相较此前最优方法BEVDet-Base提升了7.3% NDS。相关源代码已公开,供后续研究使用,地址为:https://github.com/HuangJunJie2017/BEVDet。