Command Palette
Search for a command to run...
ImageBind: 一つの埋め込み空間で全てを束ねる
ImageBind: 一つの埋め込み空間で全てを束ねる
Rohit Girdhar Alaaeldin El-Nouby Zhuang Liu Mannat Singh Kalyan Vasudev Alwala Armand Joulin Ishan Misra
概要
私たちはImageBindという手法を提案します。この手法は、画像、テキスト、音声、深度、熱画像、およびIMUデータの6つの異なるモダリティ間で共通の埋め込みを学習するものです。本研究では、このような共通の埋め込みを学習するために全てのペアデータの組み合わせが必要ではないことを示し、画像と他のモダリティとのペアデータのみで十分であることが確認されました。ImageBindは最近の大規模なビジョン言語モデルを利用でき、それらが持つゼロショット能力を新しいモダリティに拡張することができます。これにより、クロスモーダル検索や算術的なモダリティ合成、クロスモーダル検出と生成など、新たな応用が「箱から出る」(即座に利用可能)ようになります。これらの新規能力は画像エンコーダーの性能によって向上し、複数のモダリティにおける新規ゼロショット認識タスクにおいて従来の専門監督モデルを上回る最新の成果を達成しました。最後に、少数ショット認識タスクにおいても優れた結果を得ており、これまでの研究を上回っています。また、ImageBindは視覚的および非視覚的なタスクに対するビジョンモデルの評価方法として新たな道を開くものであることも示しています。