HyperAIHyperAI

Command Palette

Search for a command to run...

COSMOS: 複数モダリティ自己蒸留による視覚言語事前学習

Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata

概要

コントラスティブ損失で訓練されたビジョン言語モデル(VLMs)は、さまざまなビジョンと言語のタスクにおいて著しい進歩を遂げています。しかし、コントラスティブ損失の全体的な性質により、VLMsは主に前景オブジェクトに焦点を当て、画像内の他の重要な情報を軽視する傾向があり、これが下流タスクにおける効果性を制限しています。これらの課題に対処するために、私たちはCOSMOS: CrOSs-MOdality Self-distillation for vision-language pre-training(クロスモダリティ自己蒸留によるビジョン言語事前学習)を提案します。この手法では、新しいテキスト切り取り戦略とクロスアテンションモジュールを自己監督学習フレームワークに統合します。私たちは画像とテキストの全体的および局所的なビュー(つまり、マルチモーダル拡張)を作成し、これがVLMsでの自己蒸留にとって不可欠です。さらに、クロスアテンションモジュールを導入することで、COSMOSはクロスモダリティ自己蒸留損失を通じて最適化された包括的なクロスモーダル表現を学習することができます。COSMOSは様々なゼロショット下流タスク(検索、分類、意味分割など)において従来の強力なベースラインモデルを一貫して上回り、また大規模データセットで訓練されたCLIPベースのモデルよりも視覚認識と文脈理解タスクで優れた性能を示しています。コードはhttps://github.com/ExplainableML/cosmos で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています