ImageScope:大規模なマルチモーダルモデル集団推論を活用した言語誘導型画像検索の統合

オンラインコンテンツにおける画像の爆発的増加に伴い、過去10年間で言語誘導型画像検索(Language-Guided Image Retrieval: LGIR)は研究の注目分野として浮上し、多様な入力形式を有するさまざまなサブタスクを含むようになった。大規模なマルチモーダルモデル(Large Multimodal Models: LMMs)の発展により、これらのタスクの実現は著しく促進されたが、従来のアプローチは各タスクを個別に扱う傾向にあり、それぞれのタスクに対して別々のシステムを構築する必要がある。これによりシステムの複雑性や保守コストが増加するばかりでなく、言語の曖昧性や画像コンテンツの複雑さに起因する課題も悪化し、検索システムが正確かつ信頼性の高い結果を提供することが困難になっている。こうした課題に対応するため、本研究では、学習不要な3段階フレームワーク「ImageScope」を提案する。本フレームワークは、集団的推論(collective reasoning)を活用してLGIRタスクを統一化することを目指している。統一化の鍵となる洞察は、言語の構成性(compositional nature)にあり、これにより多様なLGIRタスクを汎用的なテキストから画像への検索プロセスに統合可能となる。さらに、LMMによる推論が、結果の精査に用いる普遍的な検証機構として機能する。具体的には、第1段階では、チェーン・オブ・シンキング(Chain-of-Thought: CoT)推論を用いて、異なる意味的粒度レベルにおける検索意図を合成することで、フレームワークのロバスト性を向上させる。第2段階および第3段階では、局所的な述語命題の検証と、グローバルなペアワイズ評価を通じて、検索結果を検証・反映する。6つのLGIRデータセットを用いた実験により、ImageScopeが競合するベースラインを上回ることを示した。包括的な評価およびアブレーションスタディにより、本研究の設計の有効性がさらに裏付けられた。