
要約
CLIPの視覚言語アプローチにおける学習目的は、ウェブから収集された画像キャプションデータセットに見られるノイズの多い多対多の対応関係を十分に捉えておらず、これが計算およびデータ効率の低さを引き起こしている。この課題に対処するため、本研究では、プログレッシブな自己蒸留(self-distillation)とソフトな画像-テキストアライメントを用いた、新たなクロスモーダルコントラスティブ学習に基づく訓練フレームワークを提案する。本モデルは、各ミニバッチ内の画像およびキャプションのサブセットに対して、自身の知識を動的に抽出してソフトなアライメントターゲットを生成し、そのターゲットを用いてパラメータを更新する。14のベンチマークデータセットにおける広範な評価結果から、本手法は計算コストを増加させることなく、以下の複数の設定においてCLIPの対応手法を一貫して上回ることが示された:(a) ゼロショット分類、(b) ライナー・プローブ転移、(c) 画像-テキスト検索。さらに、ImageNetベースのロバストネス評価環境を用いた分析により、本手法はImageNetで事前学習されたモデルおよびCLIP自体と比較して、自然な分布シフトに対してより優れた有効なロバストネスを示すことが明らかになった。最後に、データサイズが2桁異なる範囲にわたるデータセットを用いた事前学習実験から、本手法によるCLIPに対する性能向上は、訓練例数の増加に伴いその効果が拡大する傾向にあることが確認された。