
組み合わせ画像検索(Composed Image Retrieval: CIR)は、クエリを参照画像と修正テキストの組み合わせとして定式化することで、ユーザーの意図をより効果的に捉える能力を持つ新しい形式の画像検索として注目を集めています。しかし、監督学習によるCIRモデルの訓練には通常、(参照画像、テキスト修飾子、目標画像)のトリプレットを手間暇かけて収集する必要があります。既存のゼロショットCIR(Zero-Shot Composed Image Retrieval: ZS-CIR)手法は、特定のダウンストリームデータセットでの訓練を不要にしますが、依然として大規模な画像データセットでの事前学習が必要です。本論文では、訓練不要のZS-CIR手法を提案します。当手法である「重み付きモダリティ融合と類似度計算によるCIR」(Weighted Modality fusion and similarity for CIR: WeiMoCIR)は、画像とテキストモダリティが単純な重み付き平均を使用して効果的に結合できるという仮定に基づいています。これにより、クエリ表現は直接参照画像とテキスト修飾子から構築することができます。さらに検索性能を向上させるために、多様性言語モデル(Multimodal Large Language Models: MLLMs)を使用してデータベース画像に対してキャプションを生成し、これらのテキストキャプションを画像情報と重み付き平均で組み合わせて類似度計算に取り入れます。当手法はシンプルで実装が容易であり、FashionIQおよびCIRRデータセットにおける実験を通じてその有効性が確認されています。コードはhttps://github.com/whats2000/WeiMoCIR で公開されています。