2ヶ月前

自己符号化器をクロスモーダル教師として：事前学習された2D画像トランスフォーマーは3D表現学習にどのように貢献できるか？

Dong, Runpei ; Qi, Zekun ; Zhang, Linfeng ; Zhang, Junbo ; Sun, Jianjian ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng

要約

深層学習の成功は、包括的なラベルを持つ大規模なデータに大きく依存しており、2D画像や自然言語と比較して3Dデータを取得することはより高コストで時間のかかる作業となっています。これにより、3Dよりも多くのデータで事前学習されたモデルを教師として利用し、モーダル間の知識転送を行う可能性が高まっています。本論文では、知識蒸留の一貫した手法としてマスク付きモデリングを見直し、2D画像や自然言語で事前学習された基盤となるTransformerが、AutoencoderをCross-Modal Teacher (ACT)として訓練することで自己監督型3D表現学習に貢献できることを示しています。事前学習されたTransformerは、離散変分オートエンコーダによる自己監督を使用して3D教師へと転送され、その過程でプロンプトチューニングによって凍結され、より良い知識継承が実現されます。3D教師によって符号化された潜在特徴は、マスク付きポイントモデリングの目標として使用され、ここで暗黙の知識が基盤となる幾何学的理解を持つ3D Transformer学生へと蒸留されます。我々のACT事前学習3D学習者は、さまざまなダウンストリームベンチマークにおいて最先端の汎化能力を達成しており、例えばScanObjectNNでの全体精度は88.21%となっています。コードはhttps://github.com/RunpeiDong/ACT にて公開されています。