HyperAIHyperAI

Command Palette

Search for a command to run...

VISTA:ユニバーサルマルチモーダル検索のための視覚化テキスト埋め込み

Junjie Zhou Zheng Liu Shitao Xiao Bo Zhao Yongping Xiong

概要

マルチモーダル検索は実践においてますます普及している。しかし、現存する検索モデルの多くはテキスト中心であり、視覚情報の処理能力に欠けている。CLIPのような視覚言語モデルが存在する一方で、現在の手法はテキストのみ、あるいは画像のみのデータを十分に表現する能力に制限されている。本研究では、汎用的なマルチモーダル検索を実現するための新たな埋め込みモデルVISTAを提案する。本研究は以下の三つの技術的貢献をもたらす。第一に、視覚トークン埋め込みを導入することで、強力なテキストエンコーダーに画像理解能力を拡張する柔軟なアーキテクチャを提案する。第二に、高品質な画像・テキストの組み合わせデータを生成するための2つのデータ生成戦略を開発し、埋め込みモデルの訓練を支援する。第三に、多段階訓練アルゴリズムを導入する。このアルゴリズムは、まず大量の弱教師付きデータを用いて視覚トークン埋め込みをテキストエンコーダーとアライメントさせ、その後、生成された画像・テキストの組み合わせデータを用いてマルチモーダル表現能力を習得する。実験の結果、VISTAはゼロショットおよび教師あり設定の両方において、さまざまなマルチモーダル検索タスクで優れた性能を達成した。本モデル、データ、およびソースコードは、https://github.com/FlagOpen/FlagEmbedding で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています