HyperAIHyperAI

Command Palette

Search for a command to run...

双方向トレーニングによるテキストプロンプト学習を用いた合成画像検索

Zheyuan Liu Weixuan Sun Yicong Hong Damien Teney Stephen Gould

概要

合成画像検索は、参照画像と望まれる変更を説明する修正テキストからなる多モーダルのユーザクエリに基づいて、対象画像を探す技術である。この課題を解決する既存のアプローチでは、(参照画像、修正テキスト)ペアから画像埋め込みへのマッピングを学習し、その埋め込みが大規模な画像コーパスと照合される。まだ探索されていない領域の一つは逆方向であり、これは「テキストで説明されたように修正された場合、どのような参照画像が与えられた対象画像を生成するか?」という問いを投げかける。本研究では、このような逆向きのクエリを利用した双方向トレーニングスキームを提案し、既存の合成画像検索アーキテクチャに最小限の変更で適用することでモデルの性能向上を目指している。双方向クエリをエンコードするために、修正テキストの先頭に学習可能なトークンを追加し、このトークンがクエリの方向性を指定するように設定している。その後、テキスト埋め込みモジュールのパラメータを微調整する。ネットワークアーキテクチャ自体には他の変更を行っていない。2つの標準データセットでの実験結果から、当該手法が基準となるBLIPベースのモデルよりも優れた性能を達成することが示されている。このBLIPベースのモデル自体も競争力のある性能を達成している。我々のコードは https://github.com/Cuberick-Orion/Bi-Blip4CIR で公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています