2ヶ月前

トリプルコントラスティブ学習を用いたビジョン言語事前学習

Jinyu Yang; Jiali Duan; Son Tran; Yi Xu; Sampath Chanda; Liqun Chen; Belinda Zeng; Trishul Chilimbi; Junzhou Huang

要約

視覚言語表現学習は、画像とテキストの対比損失（例えば、InfoNCE損失）を用いたアライメントによって大きく恩恵を受けている。このアライメント戦略の成功は、画像とそのマッチしたテキスト間の相互情報量（Mutual Information: MI）を最大化する能力に帰属される。しかし、単純なクロスモーダルアライメント（Cross-Modal Alignment: CMA）は各モーダル内のデータの潜在力を無視しており、これが劣化した表現につながる可能性がある。たとえば、CMAベースのモデルは埋め込み空間において画像とテキストのペアを近づけることができるが、同じモーダル内での類似入力が近接することを保証できない。特に、事前学習データにノイズが含まれている場合、この問題はさらに悪化する可能性がある。本論文では、クロスモーダルおよびイントラモーダル自己監督を活用した視覚言語事前学習向けトリプルコントラスティブ学習（Triple Contrastive Learning: TCL）を提案する。CMAに加えて、TCLはイントラモーダルコントラスティブ目標を導入し、表現学習における補完的な利点を提供する。画像やテキスト入力から局所的および構造的情報を利用するため、TCLはさらに画像/テキストの局所領域とその全体的な要約との平均MIを最大化する。当該研究において最良の知識に基づく限り、我々の研究は多様性表現学習において局所構造情報を考慮した最初のものである。実験評価では、我々の手法が競争力があり、画像-テキスト検索やビジュアル質問応答などの一般的な下流視覚言語タスクで新たな最先端性能を達成していることが示された。