2 个月前
搜索高效的3D架构与稀疏点体素卷积
Haotian Tang; Zhijian Liu; Shengyu Zhao; Yujun Lin; Ji Lin; Hanrui Wang; Song Han

摘要
自动驾驶汽车需要高效且准确地理解三维场景,以确保安全驾驶。由于硬件资源有限,现有的三维感知模型在低分辨率体素化和激进的下采样过程中难以很好地识别小目标(如行人、骑自行车者)。为此,我们提出了一种轻量级的三维模块——稀疏点-体素卷积(Sparse Point-Voxel Convolution, SPVConv),该模块在普通的稀疏卷积基础上增加了高分辨率的基于点的分支。这一基于点的分支几乎不会增加额外开销,却能保留大型室外场景中的细微细节。为了探索高效的三维模型谱系,我们首先基于SPVConv定义了一个灵活的架构设计空间,然后提出了三维神经架构搜索(3D Neural Architecture Search, 3D-NAS)方法,在这个多样化的设计空间中高效且有效地搜索最优网络架构。实验结果验证了所提出的SPVNAS模型既快速又准确:它比最先进的MinkowskiNet提高了3.3%,在竞争激烈的SemanticKITTI排行榜上排名第一。此外,与MinkowskiNet相比,SPVNAS模型不仅实现了8倍的计算量减少和3倍的速度提升,还具有更高的准确性。最后,我们将该方法应用于三维目标检测,在KITTI数据集的一阶段检测基线上取得了持续的性能改进。