Regress Before Construct: ポイントクラウドの自己監督学習用リグレッションオートエンコーダー

マスク付きオートエンコーダー(Masked Autoencoders, MAE)は、2次元および3次元コンピュータビジョンにおける自己監督学習において有望な性能を示しています。しかし、既存のMAEベースの手法には依然としていくつかの課題があります。第一に、エンコーダとデコーダ間の機能分離が完全ではなく、エンコーダの表現学習能力が制限されています。第二に、下流タスクではエンコーダのみが利用され、事前タスクで獲得されたエンコーダ-デコーダ構造の知識が十分に活用されていません。本論文では、点群自己監督学習向けの回帰型オートエンコーダーであるPoint Regress AutoEncoder (Point-RAE)を提案します。提案手法では、マスク回帰器を導入することでデコーダとエンコーダ間の機能分離を実現します。このマスク回帰器は、エンコーダによって符号化された可視パッチ表現からマスキングされたパッチ表現を予測し、デコーダは予測されたマスキングパッチ表現から目標を再構築します。これにより、デコーダの更新によるエンコーダ表現空間への影響を最小限に抑えます。さらに、マスキングされたパッチの表現が可視パッチの符号化表現から計算されたものと一致するようにするためのアライメント制約を導入します。事前学習段階で獲得した知識を最大限に活用するために、提案したPoint-RAE用に新しいファインチューニングモードも設計しました。広範な実験結果は、当方針が事前学習中に効率的であり、様々な下流タスクにおいて良好な汎化性能を持つことを示しています。特に、当方策による事前学習モデルはScanObjectNN最难分割セットで\textbf{90.28\%}という高い精度を達成し、ModelNet40でも\textbf{94.1\%}という精度を記録しており、他のすべての自己監督学習手法を超えています。当方策のコードと事前学習済みモデルは公開されており、以下のURLからアクセスできます: \url{https://github.com/liuyyy111/Point-RAE}。