8ヶ月前

概要

合成画像検索は、参照画像と望まれる変更を説明する修正テキストからなる多モーダルのユーザクエリに基づいて、対象画像を探す技術である。この課題を解決する既存のアプローチでは、（参照画像、修正テキスト）ペアから画像埋め込みへのマッピングを学習し、その埋め込みが大規模な画像コーパスと照合される。まだ探索されていない領域の一つは逆方向であり、これは「テキストで説明されたように修正された場合、どのような参照画像が与えられた対象画像を生成するか？」という問いを投げかける。本研究では、このような逆向きのクエリを利用した双方向トレーニングスキームを提案し、既存の合成画像検索アーキテクチャに最小限の変更で適用することでモデルの性能向上を目指している。双方向クエリをエンコードするために、修正テキストの先頭に学習可能なトークンを追加し、このトークンがクエリの方向性を指定するように設定している。その後、テキスト埋め込みモジュールのパラメータを微調整する。ネットワークアーキテクチャ自体には他の変更を行っていない。2つの標準データセットでの実験結果から、当該手法が基準となるBLIPベースのモデルよりも優れた性能を達成することが示されている。このBLIPベースのモデル自体も競争力のある性能を達成している。我々のコードは https://github.com/Cuberick-Orion/Bi-Blip4CIR で公開されている。

ソースPDF コードを表示