Point-M2AE: ヒエラルキー構造を持つ点群のマルチスケールマスクオートエンコーダーによる事前学習

マスク付きオートエンコーダー(MAE)は、言語と2次元画像のトランスフォーマーに対する自己監督事前学習において大きな可能性を示しています。しかし、不規則な点群の3次元表現を学習するためにマスク付きオートエンコーディングをどのように活用するかについては、依然として未解決の問題が残っています。本論文では、Point-M2AEという強力な多段階MAE事前学習フレームワークを提案します。これは、3次元点群の階層的な自己監督学習に向けたものです。標準的なMAEのトランスフォーマーとは異なり、エンコーダーとデコーダーをピラミッド構造に変更し、空間幾何学を段階的にモデル化し、3次元形状の微細な特徴と高次の意味情報を両方捉えることを目指しています。段階的にポイントトークンをダウンサンプリングするエンコーダーに対して、一貫した可視領域を各スケール間で生成するための多段階マスキング戦略を設計し、ファインチューニング時に近傍パターンに焦点を当てるための局所空間自己注意機構を使用しています。多段階トークン伝播により、軽量なデコーダーはエンコーダーからの補完的なスキップ接続を利用して徐々にポイントトークンをアップサンプリングします。これにより、全体から部分への観点から再構築がさらに促進されます。広範な実験結果は、Point-M2AEが3次元表現学習において最先端の性能を持つことを示しています。事前学習後にフローズンされたエンコーダーを使用することで、Point-M2AEはModelNet40での線形SVM精度で92.9%を達成しており、完全に訓練された手法の中でもいくつかを超える成果となっています。下流タスクでのファインチューニングによって、Point-M2AEはScanObjectNNで86.43%の精度を達成し、2番目に優れた手法よりも+3.36%高い結果を得ています。また、階層的事前学習スキームにより少ショット分類や部位セグメンテーションおよび3次元物体検出などのタスクで大幅な改善が見られています。コードは https://github.com/ZrrSkywalker/Point-M2AE で公開されています。