2ヶ月前

PCP-MAE: ポイントマスクオートエンコーダーの中心を予測する学習

Zhang, Xiangdong ; Zhang, Shaofeng ; Yan, Junchi
PCP-MAE: ポイントマスクオートエンコーダーの中心を予測する学習
要約

マスク付きオートエンコーダは、点群の自己監督学習において広く研究されており、通常、点群は可視部分とマスクされた部分に分割されます。これらの手法は一般的に、エンコーダが可視パッチ(正規化された)とそれに対応するパッチ中心(位置)を入力として受け取り、デコーダがエンコーダの出力とマスクされた部分の中心(位置)を受け入れて、マスクされたパッチ内の各点を再構成します。その後、事前学習されたエンコーダは下流タスクに使用されます。本論文では、エンコーダからの情報なしで直接マスクされたパッチの中心をデコーダに入力した場合でも良好な再構成が可能であるという実証的な結果を示しています。つまり、パッチの中心は重要であり、再構成目標は必ずしもエンコーダの表現に依存する必要がないため、エンコーダが意味論的な表現を学習することを妨げる可能性があります。この重要な観察に基づいて、私たちは単純ながら効果的な方法である「Point Masked AutoEncoders (PCP-MAE) の中心予測」を提案します。この方法では、モデルが重要な中心を予測し、予測された中心を使用して直接提供される中心を置き換えることを目指します。具体的には、元のエンコーダと共通のパラメータを持つ追加のクロスアテンション機能を持つ「Center Prediction Module (PCM)」を提案しています。私たちの方法は他の代替手法と比較して高い事前学習効率を持ち、特にScanObjectNNデータセットでの3D物体分類においてPoint-MAEに対して大幅な改善を達成しており、OBJ-BGでは5.50%、OBJ-ONLYでは6.03%、PB-T50-RSでは5.17%上回っています。コードは https://github.com/aHapBean/PCP-MAE で公開されています。

PCP-MAE: ポイントマスクオートエンコーダーの中心を予測する学習 | 最新論文 | HyperAI超神経