ALIP:合成キャプションを用いた適応型言語-画像事前学習

対照的言語・画像事前学習(Contrastive Language-Image Pre-training, CLIP)は、ウェブから収集された画像・テキストペアを用いてデータセットを拡大することで、さまざまな視覚・言語タスクの性能を著しく向上させた。しかし、ウェブデータに内在するノイズや一致しない画像・テキストペアが、表現学習の性能に悪影響を及ぼす可能性がある。この問題に対処するため、まずOFAモデルを活用して、画像の内容に焦点を当てた合成キャプションを生成する。生成されたキャプションは、事前学習に有益な補完的情報を含んでおり、学習の質を向上させる。次に、生のテキストと合成キャプションの両方からの監視情報を統合するバイパス型モデルである、適応的言語・画像事前学習(Adaptive Language-Image Pre-training, ALIP)を提案する。ALIPの核心となる要素として、言語的一貫性ゲート(Language Consistency Gate, LCG)と記述的一貫性ゲート(Description Consistency Gate, DCG)を導入し、学習過程においてサンプルや画像・テキスト/キャプションペアの重みを動的に調整する。同時に、適応的コントラスト損失により、ノイズデータの影響を効果的に低減し、事前学習データの利用効率を向上させる。本研究では、異なる規模のモデルおよび事前学習データセットを用いた実験を通じてALIPの有効性を検証した。実験結果から、ALIPはゼロショット画像・テキスト検索や線形プローブなど、複数の下流タスクにおいて最先端の性能を達成することが明らかになった。今後の研究を支援するため、コードおよび事前学習済みモデルはGitHub(https://github.com/deepglint/ALIP)にて公開されている。