2ヶ月前

文レベルのプロンプトが合成画像検索に有益であること

Bai, Yang ; Xu, Xinxing ; Liu, Yong ; Khan, Salman ; Khan, Fahad ; Zuo, Wangmeng ; Goh, Rick Siow Mong ; Feng, Chun-Mei
文レベルのプロンプトが合成画像検索に有益であること
要約

合成画像検索(Composed Image Retrieval: CIR)は、参照画像と相対的なキャプションを組み合わせたクエリを使用して特定の画像を検索するタスクである。既存のCIRモデルの多くは、視覚情報と言語情報を結合するために後期融合戦略を採用している。また、参照画像から疑似単語トークンを生成し、それを相対的なキャプションに統合してCIRを行うためのいくつかの手法も提案されている。しかし、これらの疑似単語ベースのプロンプト手法は、対象画像が参照画像に対して複雑な変更(例えば、オブジェクトの削除や属性の変更)を含む場合に限界がある。本研究では、相対的なキャプションに対する適切な文章レベルのプロンプト(Sentence-level Prompt for Relative Caption: SPRC)を学習することで、効果的な合成画像検索が達成できることを示す。擬似単語ベースのプロンプトに依存することなく、BLIP-2などの事前学習済みV-Lモデルを使用して文章レベルのプロンプトを生成することを提案する。学習された文章レベルのプロンプトと相対的なキャプションを連結することで、既存のテキストベースの画像検索モデルを利用し、CIR性能を向上させることができる。さらに、我々は画像-テキストコントラスティブ損失とテキストプロンプトアライメント損失を導入し、適切な文章レベルのプロンプトの学習を強制する。実験結果は、提案手法がFashion-IQおよびCIRRデータセットにおいて最先端のCIR手法に対して有利な性能を持つことを示している。ソースコードおよび事前学習済みモデルは公開されており、以下のURLからアクセス可能である:https://github.com/chunmeifeng/SPRC

文レベルのプロンプトが合成画像検索に有益であること | 最新論文 | HyperAI超神経