2ヶ月前

COSMOS: 複数モダリティ自己蒸留による視覚言語事前学習

Sanghwan Kim; Rui Xiao; Mariana-Iuliana Georgescu; Stephan Alaniz; Zeynep Akata

要約

コントラスティブ損失で訓練されたビジョン言語モデル（VLMs）は、さまざまなビジョンと言語のタスクにおいて著しい進歩を遂げています。しかし、コントラスティブ損失の全体的な性質により、VLMsは主に前景オブジェクトに焦点を当て、画像内の他の重要な情報を軽視する傾向があり、これが下流タスクにおける効果性を制限しています。これらの課題に対処するために、私たちはCOSMOS: CrOSs-MOdality Self-distillation for vision-language pre-training（クロスモダリティ自己蒸留によるビジョン言語事前学習）を提案します。この手法では、新しいテキスト切り取り戦略とクロスアテンションモジュールを自己監督学習フレームワークに統合します。私たちは画像とテキストの全体的および局所的なビュー（つまり、マルチモーダル拡張）を作成し、これがVLMsでの自己蒸留にとって不可欠です。さらに、クロスアテンションモジュールを導入することで、COSMOSはクロスモダリティ自己蒸留損失を通じて最適化された包括的なクロスモーダル表現を学習することができます。COSMOSは様々なゼロショット下流タスク（検索、分類、意味分割など）において従来の強力なベースラインモデルを一貫して上回り、また大規模データセットで訓練されたCLIPベースのモデルよりも視覚認識と文脈理解タスクで優れた性能を示しています。コードはhttps://github.com/ExplainableML/cosmos で公開されています。