CoCa: 対照的なキャプショナーは画像とテキストの基盤モデルです

大規模事前学習基盤モデルの探求は、コンピュータビジョンにおいて大きな関心を集めています。これらのモデルは、多くの下流タスクに迅速に転移できるためです。本論文では、コントラスティブキャプショナー(CoCa)を提案します。これは、コントラスティブ損失とキャプショニング損失を組み合わせて画像-テキストエンコーダー-デコーダーモデルを共同で事前学習する最小限の設計です。これにより、CLIPのようなコントラスティブアプローチやSimVLMのような生成手法から得られるモデル機能が統合されます。標準的なエンコーダー-デコーダートランスフォーマーとは異なり、CoCaはデコーダーレイヤーの前半部分でクロスアテンションを省略し、単一モーダルのテキスト表現をエンコードします。その後半部分のデコーダーレイヤーは、マルチモーダルな画像-テキスト表現のために画像エンコーダーにクロスアテンションします。私たちは単一モーダルの画像とテキスト埋め込み間でコントラスティブ損失を適用し、さらにマルチモーダルなデコーダーアウトプットに対してキャプショニング損失を適用します。このマルチモーダルなデコーダーアウトプットは、自己回帰的にテキストトークンを予測します。同じ計算グラフを使用することで、2つの訓練目標が最小のオーバーヘッドで効率的に計算されます。CoCaはエンドツーエンドかつゼロからウェブスケールの代替テキストデータと注釈付き画像に対して事前学習され、すべてのラベルを単純にテキストとして扱うことで自然言語監督がシームレスに統合されます。実証的には、CoCaはゼロショット転移または最小限のタスク固有適応によって広範な下流タスクで最先端の性能を達成しています。これらには視覚認識(ImageNet, Kinetics-400/600/700, Moments-in-Time)、クロスマダル検索(MSCOCO, Flickr30K, MSR-VTT)、マルチモーダル理解(VQA, SNLI-VE, NLVR2)、および画像キャプショニング(MSCOCO, NoCaps)が含まれます。特にImageNet分類において、CoCaはゼロショットトップ1精度86.3%、フローズンエンコーダーと学習済み分類ヘッドを使用した場合90.6%、ファインチューニングされたエンコーダーを使用した場合91.0%という新しい最先端のトップ1精度を達成しています。