HyperAIHyperAI

Command Palette

Search for a command to run...

自己符号化器をクロスモーダル教師として:事前学習された2D画像トランスフォーマーは3D表現学習にどのように貢献できるか?

Runpei Dong Zekun Qi Linfeng Zhang Junbo Zhang Jianjian Sun Zheng Ge Li Yi Kaisheng Ma

概要

深層学習の成功は、包括的なラベルを持つ大規模なデータに大きく依存しており、2D画像や自然言語と比較して3Dデータを取得することはより高コストで時間のかかる作業となっています。これにより、3Dよりも多くのデータで事前学習されたモデルを教師として利用し、モーダル間の知識転送を行う可能性が高まっています。本論文では、知識蒸留の一貫した手法としてマスク付きモデリングを見直し、2D画像や自然言語で事前学習された基盤となるTransformerが、AutoencoderをCross-Modal Teacher (ACT)として訓練することで自己監督型3D表現学習に貢献できることを示しています。事前学習されたTransformerは、離散変分オートエンコーダによる自己監督を使用して3D教師へと転送され、その過程でプロンプトチューニングによって凍結され、より良い知識継承が実現されます。3D教師によって符号化された潜在特徴は、マスク付きポイントモデリングの目標として使用され、ここで暗黙の知識が基盤となる幾何学的理解を持つ3D Transformer学生へと蒸留されます。我々のACT事前学習3D学習者は、さまざまなダウンストリームベンチマークにおいて最先端の汎化能力を達成しており、例えばScanObjectNNでの全体精度は88.21%となっています。コードはhttps://github.com/RunpeiDong/ACT にて公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています