HyperAIHyperAI

Command Palette

Search for a command to run...

リーズン・ベフォア・リトリーブ:トレーニング不要なゼロショット複合画像検索のためのワンステージ反射型チェーン・オブ・シンキング

Yuanmin Tang Xiaoting Qin Jue Zhang Jing Yu Gaopeng Gou Gang Xiong Qingwei Ling Saravan Rajmohan Dongmei Zhang Qi Wu

概要

コンポーズド・イメージリトリーバル(CIR)は、ユーザーが指定するテキスト的変更を組み込みつつ、参照画像に類似したターゲット画像を正確に検索することを目的としており、ユーザーの意図をより正確に捉えることを目指している。既存のトレーニング不要なゼロショットCIR(ZS-CIR)手法は、一般的に二段階のプロセスを採用している。すなわち、まず参照画像に対してキャプションを生成し、その後大規模言語モデル(LLM)を用いて推論を行い、ターゲット画像の記述を得る。しかし、こうした手法は重要な視覚的情報の欠落や推論能力の制限により、最適なリトリーブ性能に至らない場合が多い。この課題に対処するため、本研究では、トレーニング不要な一ステージ型手法である「One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR(OSrCIR)」を提案する。本手法は、マルチモーダル大規模言語モデル(MLLM)を用いて、一ステージの推論プロセスの中で本質的な視覚情報を保持する。これにより、従来の二段階手法で生じる情報損失を根本的に排除する。さらに、本研究で提唱する「Reflective Chain-of-Thought」フレームワークは、参照画像からの文脈的ヒントと操作意図を一致させることで、解釈の正確性を向上させる。OSrCIRは、複数のタスクにおいて既存のトレーニング不要手法に対して1.80%~6.44%の性能向上を達成し、ZS-CIR分野における新たなSOTA(状態の最良)を確立するとともに、視覚言語応用における実用性を大幅に高めた。本研究のコードは、https://github.com/Pter61/osrcir2024/ にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています