
ゼロショット複合画像検索(Zero-shot Composed Image Retrieval: ZSCIR)は、クエリ画像と関連するキャプションに一致する画像を検索することを要求します。現在の手法は、クエリ画像をテキスト特徴空間に射影し、その後、クエリテキストの特徴と組み合わせて検索を行うことに焦点を当てています。しかし、テキスト特徴のみで画像を検索することは、画像とテキストの間にある自然なギャップにより詳細な対応が保証されません。本論文では、訓練不要の手法であるCIR用イマジンドプロキシ(Imagined Proxy for CIR: IP-CIR)を導入します。この手法は、クエリ画像とテキスト説明に対応した代理画像を作成し、検索プロセスにおけるクエリ表現を強化します。まず、大規模言語モデルの汎化能力を利用して画像レイアウトを生成し、次にクエリテキストと画像を使用して条件付き生成を行います。堅牢なクエリ特徴量は、代理画像、クエリ画像、およびテキスト意味論的摂動の統合によって強化されます。我々が新しく提案するバランス指標は、テキストベースの類似度と代理検索類似度を統合し、プロセス中に画像側情報を組み込むことで目標画像のより正確な検索を可能にします。3つの公開データセットでの実験結果から、本手法が大幅に検索性能を向上させることを示しています。CIRRデータセットにおいてはRecall@KでK=10の場合70.07という最先端(State-of-the-Art: SOTA)の結果を得ました。さらにFashionIQデータセットではRecall@10が45.11から45.74へと改善し、CIRCOにおいてもmAPK@10スコアが32.24から34.26へと基線性能が向上しました。