17日前

リーズン・ベフォア・リトリーブ：トレーニング不要なゼロショット複合画像検索のためのワンステージ反射型チェーン・オブ・シンキング

Yuanmin Tang, Xiaoting Qin, Jue Zhang, Jing Yu, Gaopeng Gou, Gang Xiong, Qingwei Ling, Saravan Rajmohan, Dongmei Zhang, Qi Wu

論文の詳細を見る

リーズン・ベフォア・リトリーブ：トレーニング不要なゼロショット複合画像検索のためのワンステージ反射型チェーン・オブ・シンキング

要約

コンポーズド・イメージリトリーバル（CIR）は、ユーザーが指定するテキスト的変更を組み込みつつ、参照画像に類似したターゲット画像を正確に検索することを目的としており、ユーザーの意図をより正確に捉えることを目指している。既存のトレーニング不要なゼロショットCIR（ZS-CIR）手法は、一般的に二段階のプロセスを採用している。すなわち、まず参照画像に対してキャプションを生成し、その後大規模言語モデル（LLM）を用いて推論を行い、ターゲット画像の記述を得る。しかし、こうした手法は重要な視覚的情報の欠落や推論能力の制限により、最適なリトリーブ性能に至らない場合が多い。この課題に対処するため、本研究では、トレーニング不要な一ステージ型手法である「One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR（OSrCIR）」を提案する。本手法は、マルチモーダル大規模言語モデル（MLLM）を用いて、一ステージの推論プロセスの中で本質的な視覚情報を保持する。これにより、従来の二段階手法で生じる情報損失を根本的に排除する。さらに、本研究で提唱する「Reflective Chain-of-Thought」フレームワークは、参照画像からの文脈的ヒントと操作意図を一致させることで、解釈の正確性を向上させる。OSrCIRは、複数のタスクにおいて既存のトレーニング不要手法に対して1.80%～6.44%の性能向上を達成し、ZS-CIR分野における新たなSOTA（状態の最良）を確立するとともに、視覚言語応用における実用性を大幅に高めた。本研究のコードは、https://github.com/Pter61/osrcir2024/ にて公開される予定である。