6 个月前

摘要

近年来，基于摄像头的鸟瞰图（Bird’s Eye View, BEV）空间3D目标检测受到广泛关注。主流的密集型检测器通常采用两阶段流程：首先构建密集的BEV特征，再在BEV空间中进行目标检测。然而，该方法面临复杂的视角变换以及较高的计算开销。另一方面，稀疏型检测器采用基于查询（query-based）的范式，无需显式构建密集的BEV特征，但其性能通常低于密集型方法。本文发现，缩小这一性能差距的关键在于检测器在BEV空间与图像空间中均具备良好的适应性。为此，我们提出SparseBEV——一种全稀疏的3D目标检测框架，其性能超越了现有密集型检测器。SparseBEV包含三个核心设计：（1）尺度自适应自注意力机制，用于在BEV空间中以自适应感受野聚合特征；（2）自适应时空采样策略，根据查询动态生成采样位置；（3）自适应融合机制，利用查询生成的动态权重对采样特征进行解码。在nuScenes数据集的测试集上，SparseBEV取得了67.5 NDS的当前最优性能；在验证集上，其NDS达到55.8，同时保持23.5 FPS的实时推理速度。代码已开源，地址为：https://github.com/MCG-NJU/SparseBEV。

源 PDF