2 个月前

用于点云自监督学习的掩码自动编码器

Pang, Yatian ; Wang, Wenxiao ; Tay, Francis E. H. ; Liu, Wei ; Tian, Yonghong ; Yuan, Li

摘要

作为一种有前景的自监督学习方案，掩码自动编码（Masked Autoencoding）在自然语言处理和计算机视觉领域取得了显著进展。受此启发，我们提出了一种用于点云自监督学习的简洁掩码自动编码器方案，旨在解决点云特性带来的挑战，包括位置信息泄露和信息密度不均等问题。具体而言，我们将输入的点云分割为不规则的点补丁，并以高比例随机掩码这些点补丁。然后，基于标准Transformer的自动编码器通过不对称设计和掩码标记移位操作从未被掩码的点补丁中学习高层次的潜在特征，目标是重建被掩码的点补丁。大量实验表明，我们的方法在预训练过程中效率高，并且在各种下游任务上具有良好的泛化能力。特别是，我们的预训练模型在ScanObjectNN数据集上达到了85.18%的准确率，在ModelNet40数据集上达到了94.04%的准确率，超过了所有其他自监督学习方法。我们证明了仅使用标准Transformer构建的简单架构可以超越监督学习中的专用Transformer模型。此外，我们的方法在少样本对象分类任务中将最先进水平提高了1.5%-2.3%。进一步地，我们的工作展示了将来自语言和图像领域的统一架构应用于点云的可能性。