6 个月前

摘要

基于预训练主干网络并结合微调的方法在二维视觉与自然语言处理任务中已取得显著成功，展现出相较于专用任务网络的优越性能。在本工作中，我们提出了一种用于三维室内场景理解的预训练3D主干网络，命名为 {\SST}。我们设计了基于3D Swin Transformer的主干网络，该网络能够在稀疏体素（sparse voxels）上实现高效的自注意力机制，同时保持线性内存复杂度，从而使得主干网络可扩展至大规模模型与数据集。此外，我们引入了一种广义的上下文相对位置嵌入机制，以更好地捕捉点云信号中各类不规则性，从而提升网络性能。我们在一个合成的Structured3D数据集上对大型 {\SST} 模型进行了预训练，该数据集规模比ScanNet数据集大一个数量级。实验结果表明，该在合成数据上预训练的模型不仅在真实三维点云数据集上的下游分割与检测任务中展现出良好的泛化能力，而且在多个基准任务上超越了当前最先进的方法：在S3DIS Area5和6折语义分割任务中分别取得+2.3 mIoU和+2.2 mIoU的提升；在ScanNet分割（验证集）任务中实现+1.8 mIoU的提升；在ScanNet检测任务中达到+1.9 [email protected]的性能增益；在S3DIS检测任务中更是实现+8.1 [email protected]的显著提升。一系列详尽的消融实验进一步验证了所提出方法在可扩展性、通用性以及卓越性能方面的优势。相关代码与模型已开源，地址为：https://github.com/microsoft/Swin3D。

源 PDF 查看代码