11 天前

采用稀疏Transformer的单步长3D目标检测器

Lue Fan, Ziqi Pang, Tianyuan Zhang, Yu-Xiong Wang, Hang Zhao, Feng Wang, Naiyan Wang, Zhaoxiang Zhang
采用稀疏Transformer的单步长3D目标检测器
摘要

在面向自动驾驶的激光雷达(LiDAR)三维目标检测任务中,目标物体尺寸与输入场景尺寸之比显著小于二维目标检测场景。然而,许多三维检测器在设计时忽视了这一关键差异,直接沿用二维检测器的通用范式,即在对点云进行量化后仍继续对特征图进行多尺度下采样。本文首先重新审视这种多步长(multi-stride)范式对基于LiDAR的三维目标检测器的影响。实验结果表明,下采样操作带来的收益微乎其微,反而不可避免地造成信息损失。为解决该问题,本文提出一种单步长稀疏Transformer(Single-stride Sparse Transformer, SST)架构,从网络输入到输出全程保持原始分辨率,从而完整保留空间细节。借助Transformer的全局建模能力,SST有效缓解了单步长结构中感受野不足的问题。同时,该方法天然契合点云数据的稀疏特性,避免了传统密集计算带来的高昂开销。最终,SST在大规模Waymo Open Dataset上取得了当前最优的检测性能。特别值得注意的是,得益于单步长设计带来的高分辨率表征能力,该方法在小目标(如行人)检测任务中表现尤为突出,于验证集上实现了83.8的LEVEL 1 AP指标。相关代码将开源至:https://github.com/TuSimple/SST