17日前

COTS:マルチモーダル検索向け協調型二重ストリーム視覚言語事前学習モデル

Haoyu Lu, Nanyi Fei, Yuqi Huo, Yizhao Gao, Zhiwu Lu, Ji-Rong Wen
COTS:マルチモーダル検索向け協調型二重ストリーム視覚言語事前学習モデル
要約

大規模なシングルストリーム事前学習は、画像・テキスト検索において顕著な性能を示している。しかしながら、重いアテンション層のため推論効率が低くなるという課題に直面している。近年、CLIPやALIGNといった二ストリーム手法は高い推論効率を実現し、有望な性能を示しているが、両ストリーム間のインスタンスレベルのアライメントのみを考慮しているため(改善の余地が依然として存在する)。この課題を克服するため、本研究では画像・テキスト検索を目的とした新たな協調型二ストリーム視覚言語事前学習モデル「COTS(COllaborative Two-Stream)」を提案する。COTSは、クロスモーダル相互作用を強化することで、従来の手法の限界を克服する。具体的には、モーメントム対比学習によるインスタンスレベルのアライメントに加え、以下の2つの新たなクロスモーダル相互作用を導入している。(1)トークンレベルの相互作用:クロスストリームネットワークモジュールを用いない、マスク視覚言語モデリング(MVLM)学習目的を設計。視覚エンコーダに変分自己符号化器(VAE)を導入し、各画像に対して視覚的トークンを生成する。(2)タスクレベルの相互作用:テキストから画像への検索と画像からテキストへの検索という2つのタスク間でKLアライメント学習目的を定式化。各タスクの確率分布は、モーメントム対比学習における負例キューを用いて計算される。公平な比較条件下において、COTSはすべての二ストリーム手法の中で最高の性能を達成し、最新のシングルストリーム手法と比較しても同等の性能を発揮しつつ、推論速度が最大10,800倍高速化される。さらに重要な点として、COTSはテキストから動画への検索にも適用可能であり、広く用いられるMSR-VTTデータセットにおいて、新たな最先端性能(SOTA)を達成した。

COTS:マルチモーダル検索向け協調型二重ストリーム視覚言語事前学習モデル | 最新論文 | HyperAI超神経