19時間前
モカ: モダリティ認識の継続的前学習が双方向多様性埋め込みを改善する
Haonan Chen, Hong Liu, Yuping Luo, Liang Wang, Nan Yang, Furu Wei, Zhicheng Dou

要約
多モーダル埋め込みモデルは、因果関係に基づくビジョン言語モデル(VLM)を基盤として、様々なタスクにおいて有望な結果を示しています。しかし、現在のアプローチには3つの主要な制限があります:VLMのバックボーンにおける因果注意が埋め込みタスクに最適でない;対照学習のために高品質なラベル付きペアデータへの依存によるスケーラビリティの問題;および訓練目的とデータの多様性の不足です。これらの課題に対処するため、私たちはMoCaと呼ばれる2段階フレームワークを提案します。このフレームワークは、事前学習されたVLMを効果的な双方向多モーダル埋め込みモデルに変換することを目指しています。 第1段階であるモーダリティ認識継続的事前学習では、テキストと画像の入力を同時にデノイズする共同再構築目的が導入され、双方向的な文脈認識能力が向上します。第2段階である異種対照微調整では、単純な画像-キャプションペアだけでなく、意味的に豊かな多様な多モーダルデータを活用して汎化能力和合性を強化します。 私たちの手法は、以下の点で述べられた制限に対処しています:継続的事前学習を通じて双方向注意を導入し、共同再構築目的により大量の非ラベルデータセットでのスケーリングを効果的に実現し、さらに表現の堅牢性を向上させるために多様な多モーダルデータを利用しています。実験結果は、MoCaがMMEBおよびViDoRe-v2ベンチマークにおいて一貫して性能を向上させ、新たな最先端の結果を達成していることを示しており、MMEBにおいてモデルサイズや訓練データ量に関わらず強いスケーラビリティを持つことが確認されています。