
要約
本論文では、限られたデータと最小限の計算量のもとでも、単純な線形プローブ(linear probing)によって多様な3Dタスクに利用可能な信頼性の高い自己教師あり点群モデルが存在するかどうかを検証する。我々は、既存の3D自己教師あり学習手法が、線形プローブを用いた表現品質評価において不十分であることを発見した。その原因として、「幾何学的ショートカット(geometric shortcut)」という我々が提唱する現象を想定する。この現象により、表現が低レベルの空間特徴に崩壊してしまう。この課題は3Dデータに特有のものであり、点群データの疎性(sparsity)に起因する。これを解決するために、空間情報の隠蔽と入力特徴への依存性の強化という2つの鍵となる戦略を採用し、自己蒸留(self-distillation)により14万点の点群からなる「Sonata」を構築した。Sonataはシンプルかつ直感的でありながら、学習された表現は強固で信頼性が高い。ゼロショットでの可視化では、意味的グルーピングが明確に示されるとともに、近隣点間の関係性を用いた強力な空間推論能力が確認された。Sonataはパラメータおよびデータ効率において優れた性能を発揮し、ScanNet上での線形プローブ精度を21.8%から72.5%まで3倍に向上させた。また、従来手法と比較して1%のデータ量でほぼ2倍の性能を達成した。さらに、フルファインチューニングを施すことで、3D屋内および屋外の認識タスクにおいて、両方で最先端(SOTA)の性能を達成した。