6 个月前

摘要

在面向自动驾驶的激光雷达（LiDAR）三维目标检测任务中，目标物体尺寸与输入场景尺寸之比显著小于二维目标检测场景。然而，许多三维检测器在设计时忽视了这一关键差异，直接沿用二维检测器的通用范式，即在对点云进行量化后仍继续对特征图进行多尺度下采样。本文首先重新审视这种多步长（multi-stride）范式对基于LiDAR的三维目标检测器的影响。实验结果表明，下采样操作带来的收益微乎其微，反而不可避免地造成信息损失。为解决该问题，本文提出一种单步长稀疏Transformer（Single-stride Sparse Transformer, SST）架构，从网络输入到输出全程保持原始分辨率，从而完整保留空间细节。借助Transformer的全局建模能力，SST有效缓解了单步长结构中感受野不足的问题。同时，该方法天然契合点云数据的稀疏特性，避免了传统密集计算带来的高昂开销。最终，SST在大规模Waymo Open Dataset上取得了当前最优的检测性能。特别值得注意的是，得益于单步长设计带来的高分辨率表征能力，该方法在小目标（如行人）检测任务中表现尤为突出，于验证集上实现了83.8的LEVEL 1 AP指标。相关代码将开源至：https://github.com/TuSimple/SST

源 PDF