
要約
マスク付きオートエンコーディングは、自己監督学習において画像と言語の分野で大きな成功を収めています。しかし、マスクに基づく事前学習は点群データの理解にまだ恩恵をもたらしておらず、これは訓練時とテスト時の分布の不一致(訓練中にマスキングによって導入される)を適切に処理できない標準的なバックボーン(例:PointNet)の存在が原因であると考えられます。本論文では、このギャップを埋めるために、点群データ用の識別的マスク事前学習トランスフォーマー・フレームワーク「MaskPoint」を提案します。私たちの主なアイデアは、点群データを離散的な占有値(点群の一部であれば1、そうでなければ0)として表現し、マスクされた物体ポイントとサンプリングされたノイズポイント間での単純な二値分類タスクを行うことです。これにより、私たちの手法は点群データにおけるポイントサンプリングの変動に対して堅牢であり、豊かな表現学習を促進します。私たちは事前学習済みモデルを3D形状分類、セグメンテーション、および実世界での物体検出などの下流タスクで評価し、従来の最先端トランスフォーマーベースラインと比較して大幅な事前学習速度向上(例えばScanNetでは4.1倍)とともに最先端の結果を示しています。コードは https://github.com/haotian-liu/MaskPoint で利用可能です。