HyperAIHyperAI

Command Palette

Search for a command to run...

トリプルコントラスティブ学習を用いたビジョン言語事前学習

Jinyu Yang extsuperscript1 Jiali Duan extsuperscript2 Son Tran extsuperscript2 Yi Xu extsuperscript2 Sampath Chanda extsuperscript2 Liqun Chen extsuperscript2 Belinda Zeng extsuperscript2 Trishul Chilimbi extsuperscript2 Junzhou Huang extsuperscript1

概要

視覚言語表現学習は、画像とテキストの対比損失(例えば、InfoNCE損失)を用いたアライメントによって大きく恩恵を受けている。このアライメント戦略の成功は、画像とそのマッチしたテキスト間の相互情報量(Mutual Information: MI)を最大化する能力に帰属される。しかし、単純なクロスモーダルアライメント(Cross-Modal Alignment: CMA)は各モーダル内のデータの潜在力を無視しており、これが劣化した表現につながる可能性がある。たとえば、CMAベースのモデルは埋め込み空間において画像とテキストのペアを近づけることができるが、同じモーダル内での類似入力が近接することを保証できない。特に、事前学習データにノイズが含まれている場合、この問題はさらに悪化する可能性がある。本論文では、クロスモーダルおよびイントラモーダル自己監督を活用した視覚言語事前学習向けトリプルコントラスティブ学習(Triple Contrastive Learning: TCL)を提案する。CMAに加えて、TCLはイントラモーダルコントラスティブ目標を導入し、表現学習における補完的な利点を提供する。画像やテキスト入力から局所的および構造的情報を利用するため、TCLはさらに画像/テキストの局所領域とその全体的な要約との平均MIを最大化する。当該研究において最良の知識に基づく限り、我々の研究は多様性表現学習において局所構造情報を考慮した最初のものである。実験評価では、我々の手法が競争力があり、画像-テキスト検索やビジュアル質問応答などの一般的な下流視覚言語タスクで新たな最先端性能を達成していることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています