2ヶ月前

ViT-Lens: 3Dの洞察を通じたオミモーダル探査の開始

Lei, Weixian ; Ge, Yixiao ; Zhang, Jianfeng ; Sun, Dylan ; Yi, Kun ; Shan, Ying ; Shou, Mike Zheng

要約

CLIPベースの訓練方法が視覚言語モデルで成功を収めている一方、3Dや音声などのより多くのモダリティへのスケーラビリティは、大規模なデータに制限されており、これは希少なモダリティに対しては高コストであるか、あるいは適用できない場合があります。本論文では、ViT-Lensを提案します。これは効率的なオムニモーダル表現学習を促進し、事前学習されたViTを使用して新しいモダリティを認識し、事前に定義された空間に合わせるための手法です。具体的には、モダリティ固有のレンズが調整され、マルチモーダル信号を共有埋め込み空間に射影します。これらの信号はその後、事前学習済みの画像知識を持つ強力なViTによって処理されます。符号化されたマルチモーダル表現は、市販の基礎モデルによって事前に定義されたモダリティ非依存空間と一致するように最適化されます。ViTバックボーンを持つ良好に訓練されたレンズは、これらの基礎モデルの一つとして機能し、後続のモダリティの学習を監督する可能性があります。ViT-Lensは、増加するモダリティに対する表現学習の一貫した解決策を提供し、以下の2つの魅力的な利点を持っています：(i) タスクやドメインを超えて効果的に事前学習済みのViTを利用できるとともに、効率的なデータ体制で運用できます；(ii) モダリティアライメント空間のおかげで、新しいモダリティにおける下流タスクでの能力が現れます。私たちは3Dを対象として初期検証を行い、ViT-Lensの評価を行いました。ゼロショット3D分類において、ViT-Lensはこれまでの最先端技術よりも大幅な改善を達成しており、Objaverse-LVISでは52.0%の精度、ModelNet40では87.4%、ScanObjectNNでは60.6%となっています。さらに、訓練済み3DレンズをInstructBLIPモデルに単純に統合することでゼロショット3D質問応答も可能となりました。この際特別な適合は必要ありませんでした。今後近い将来においても私たちはViT-Lensによる他のモダリティに関する結果を公開していく予定です。