HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-Lens: 3Dの洞察を通じたオミモーダル探査の開始

Weixian Lei extsuperscript1,2,3 Yixiao Ge extsuperscript2 extsuperscript† Jianfeng Zhang extsuperscript3 Dylan Sun extsuperscript2 Kun Yi extsuperscript2 Ying Shan extsuperscript2 Mike Zheng Shou extsuperscript1,3 extsuperscript†

概要

CLIPベースの訓練方法が視覚言語モデルで成功を収めている一方、3Dや音声などのより多くのモダリティへのスケーラビリティは、大規模なデータに制限されており、これは希少なモダリティに対しては高コストであるか、あるいは適用できない場合があります。本論文では、ViT-Lensを提案します。これは効率的なオムニモーダル表現学習を促進し、事前学習されたViTを使用して新しいモダリティを認識し、事前に定義された空間に合わせるための手法です。具体的には、モダリティ固有のレンズが調整され、マルチモーダル信号を共有埋め込み空間に射影します。これらの信号はその後、事前学習済みの画像知識を持つ強力なViTによって処理されます。符号化されたマルチモーダル表現は、市販の基礎モデルによって事前に定義されたモダリティ非依存空間と一致するように最適化されます。ViTバックボーンを持つ良好に訓練されたレンズは、これらの基礎モデルの一つとして機能し、後続のモダリティの学習を監督する可能性があります。ViT-Lensは、増加するモダリティに対する表現学習の一貫した解決策を提供し、以下の2つの魅力的な利点を持っています:(i) タスクやドメインを超えて効果的に事前学習済みのViTを利用できるとともに、効率的なデータ体制で運用できます;(ii) モダリティアライメント空間のおかげで、新しいモダリティにおける下流タスクでの能力が現れます。私たちは3Dを対象として初期検証を行い、ViT-Lensの評価を行いました。ゼロショット3D分類において、ViT-Lensはこれまでの最先端技術よりも大幅な改善を達成しており、Objaverse-LVISでは52.0%の精度、ModelNet40では87.4%、ScanObjectNNでは60.6%となっています。さらに、訓練済み3DレンズをInstructBLIPモデルに単純に統合することでゼロショット3D質問応答も可能となりました。この際特別な適合は必要ありませんでした。今後近い将来においても私たちはViT-Lensによる他のモダリティに関する結果を公開していく予定です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ViT-Lens: 3Dの洞察を通じたオミモーダル探査の開始 | 記事 | HyperAI超神経