8ヶ月前

マルチモーダル表現

マルチモーダル

マルチモーダル

Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra

概要

私たちはImageBindという手法を提案します。この手法は、画像、テキスト、音声、深度、熱画像、およびIMUデータの6つの異なるモダリティ間で共通の埋め込みを学習するものです。本研究では、このような共通の埋め込みを学習するために全てのペアデータの組み合わせが必要ではないことを示し、画像と他のモダリティとのペアデータのみで十分であることが確認されました。ImageBindは最近の大規模なビジョン言語モデルを利用でき、それらが持つゼロショット能力を新しいモダリティに拡張することができます。これにより、クロスモーダル検索や算術的なモダリティ合成、クロスモーダル検出と生成など、新たな応用が「箱から出る」（即座に利用可能）ようになります。これらの新規能力は画像エンコーダーの性能によって向上し、複数のモダリティにおける新規ゼロショット認識タスクにおいて従来の専門監督モデルを上回る最新の成果を達成しました。最後に、少数ショット認識タスクにおいても優れた結果を得ており、これまでの研究を上回っています。また、ImageBindは視覚的および非視覚的なタスクに対するビジョンモデルの評価方法として新たな道を開くものであることも示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル表現

マルチモーダル

マルチモーダル

Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra

概要

私たちはImageBindという手法を提案します。この手法は、画像、テキスト、音声、深度、熱画像、およびIMUデータの6つの異なるモダリティ間で共通の埋め込みを学習するものです。本研究では、このような共通の埋め込みを学習するために全てのペアデータの組み合わせが必要ではないことを示し、画像と他のモダリティとのペアデータのみで十分であることが確認されました。ImageBindは最近の大規模なビジョン言語モデルを利用でき、それらが持つゼロショット能力を新しいモダリティに拡張することができます。これにより、クロスモーダル検索や算術的なモダリティ合成、クロスモーダル検出と生成など、新たな応用が「箱から出る」（即座に利用可能）ようになります。これらの新規能力は画像エンコーダーの性能によって向上し、複数のモダリティにおける新規ゼロショット認識タスクにおいて従来の専門監督モデルを上回る最新の成果を達成しました。最後に、少数ショット認識タスクにおいても優れた結果を得ており、これまでの研究を上回っています。また、ImageBindは視覚的および非視覚的なタスクに対するビジョンモデルの評価方法として新たな道を開くものであることも示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています