
摘要
在本文中,我们质疑:在数据有限且计算资源极少的情况下,是否存在一种可靠的自监督点云模型,能够通过简单的线性探测(linear probing)适用于多种3D任务。我们发现,现有3D自监督学习方法在通过线性探测评估表征质量时表现不足。我们推测,这一问题源于我们所称的“几何捷径”(geometric shortcut)现象——该现象导致模型表征退化为低层次的空间特征。这一挑战具有三维数据的独特性,其根源在于点云数据的稀疏特性。为应对这一问题,我们提出了两种关键策略:一是遮蔽空间信息,二是增强模型对输入特征的依赖性,最终通过自蒸馏(self-distillation)构建出由14万点云组成的“交响曲”(Sonata)模型。Sonata结构简洁直观,但其学习到的表征却具备强大且可靠的性能:零样本可视化结果展现出良好的语义分组能力,并能通过最近邻关系实现出色的几何推理。Sonata在参数效率和数据效率方面表现卓越,在ScanNet数据集上,线性探测准确率从21.8%提升至72.5%,实现了三倍增长;仅使用1%的数据量,其性能也接近此前方法的两倍。在全量微调后,Sonata在3D室内与室外感知任务中均达到当前最优水平(SOTA)。