18日前

LDRE:LLMを活用した多様な推論とアンサンブルによるゼロショット複合画像検索

{Changsheng Xu, WeiMing Dong, Shengsheng Qian, Dizhan Xue, Zhenyu Yang}
要約

近年、ゼロショット複合画像検索(Zero-Shot Composed Image Retrieval; ZS-CIR)はますます注目を集めている。ZS-CIRの目的は、トレーニングデータを用いずに、参照画像と変更テキストから構成されるクエリに基づいて、対象画像を検索することである。具体的には、変更テキストは2枚の画像間の差異を記述するものである。従来のZS-CIR手法では、事前学習済みの画像-テキストモデルを用いて、クエリとなる画像とテキストを一つのテキストに変換し、その後CLIPによって共通の特徴空間に投影することで対象画像を検索する。しかし、これらの手法はZS-CIRが典型的な曖昧な検索タスクであることに着目していない。すなわち、対象画像の意味はクエリ画像とテキストによって厳密に定義されるわけではない。この制約を克服するために、本論文では訓練不要な大規模言語モデル(LLM)を活用した、発散的推論とアンサンブル(Divergent Reasoning and Ensemble; LDRE)手法を提案する。この手法は、複合結果の多様な可能な意味を捉えることを目的としている。まず、事前学習済みのキャプション生成モデルを用いて、参照画像に対して異なる意味的視点に焦点を当てた密集型キャプション(dense captions)を生成する。次に、大規模言語モデル(LLM)に、これらの密集型キャプションと変更テキストに基づいて発散的複合推論を実行させ、対象画像の可能な意味をカバーする発散的編集キャプション(divergent edited captions)を導出する。最後に、意味的関連スコアに基づいて重み付けされたアンサンブルキャプション特徴を取得するための発散的キャプションアンサンブルを設計し、この特徴をCLIP特徴空間内で対象画像の検索に用いる。3つの公開データセットを用いた広範な実験により、提案手法LDREが新たなSOTA(State-of-the-Art)性能を達成することが示された。

LDRE:LLMを活用した多様な推論とアンサンブルによるゼロショット複合画像検索 | 最新論文 | HyperAI超神経