17日前

VISTA：ユニバーサルマルチモーダル検索のための視覚化テキスト埋め込み

Junjie Zhou, Zheng Liu, Shitao Xiao, Bo Zhao, Yongping Xiong

要約

マルチモーダル検索は実践においてますます普及している。しかし、現存する検索モデルの多くはテキスト中心であり、視覚情報の処理能力に欠けている。CLIPのような視覚言語モデルが存在する一方で、現在の手法はテキストのみ、あるいは画像のみのデータを十分に表現する能力に制限されている。本研究では、汎用的なマルチモーダル検索を実現するための新たな埋め込みモデルVISTAを提案する。本研究は以下の三つの技術的貢献をもたらす。第一に、視覚トークン埋め込みを導入することで、強力なテキストエンコーダーに画像理解能力を拡張する柔軟なアーキテクチャを提案する。第二に、高品質な画像・テキストの組み合わせデータを生成するための2つのデータ生成戦略を開発し、埋め込みモデルの訓練を支援する。第三に、多段階訓練アルゴリズムを導入する。このアルゴリズムは、まず大量の弱教師付きデータを用いて視覚トークン埋め込みをテキストエンコーダーとアライメントさせ、その後、生成された画像・テキストの組み合わせデータを用いてマルチモーダル表現能力を習得する。実験の結果、VISTAはゼロショットおよび教師あり設定の両方において、さまざまなマルチモーダル検索タスクで優れた性能を達成した。本モデル、データ、およびソースコードは、https://github.com/FlagOpen/FlagEmbedding で公開されている。