リーズン・ベフォア・リトリーブ:トレーニング不要なゼロショット複合画像検索のためのワンステージ反射型チェーン・オブ・シンキング

コンポーズド・イメージリトリーバル(CIR)は、ユーザーが指定するテキスト的変更を組み込みつつ、参照画像に類似したターゲット画像を正確に検索することを目的としており、ユーザーの意図をより正確に捉えることを目指している。既存のトレーニング不要なゼロショットCIR(ZS-CIR)手法は、一般的に二段階のプロセスを採用している。すなわち、まず参照画像に対してキャプションを生成し、その後大規模言語モデル(LLM)を用いて推論を行い、ターゲット画像の記述を得る。しかし、こうした手法は重要な視覚的情報の欠落や推論能力の制限により、最適なリトリーブ性能に至らない場合が多い。この課題に対処するため、本研究では、トレーニング不要な一ステージ型手法である「One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR(OSrCIR)」を提案する。本手法は、マルチモーダル大規模言語モデル(MLLM)を用いて、一ステージの推論プロセスの中で本質的な視覚情報を保持する。これにより、従来の二段階手法で生じる情報損失を根本的に排除する。さらに、本研究で提唱する「Reflective Chain-of-Thought」フレームワークは、参照画像からの文脈的ヒントと操作意図を一致させることで、解釈の正確性を向上させる。OSrCIRは、複数のタスクにおいて既存のトレーニング不要手法に対して1.80%~6.44%の性能向上を達成し、ZS-CIR分野における新たなSOTA(状態の最良)を確立するとともに、視覚言語応用における実用性を大幅に高めた。本研究のコードは、https://github.com/Pter61/osrcir2024/ にて公開される予定である。