18日前

意味編集のインクリメンタルな利点がゼロショット組み合わせ画像検索に与える影響

{Changsheng Xu, WeiMing Dong, Fan Yang, JiaHong Wu, Dizhan Xue, Shengsheng Qian, Zhenyu Yang}
要約

近年、ゼロショットコンポーズ画像検索(Zero-Shot Composed Image Retrieval, ZS-CIR)は注目を集めている。ZS-CIRは、トレーニングデータを用いずに、参照画像と相対的テキストから構成されたクエリに基づき、特定の画像を検索することを目的としている。ここで、相対的テキストは二つの画像間の差異を記述する。従来のZS-CIR手法は、画像からテキスト(I2T)モデルを用いて参照画像を単一のキャプションに変換し、その後、テキスト統合(text-fusion)手法によりそのキャプションと相対的テキストを統合して組み合わせテキストを生成し、検索に用いている。しかし、これらの手法は、検索結果として得られる画像との最終的な類似度だけでなく、組み合わせ編集プロセスにおける意味的増分(semantic increment)も考慮すべきであるという事実を無視している。この課題を解決するために、本研究ではトレーニングを必要としない新しい手法「ZS-CIRのための意味的編集増分(Semantic Editing Increment for ZS-CIR, SEIZE)」を提案する。SEIZEは、参照画像と相対的テキストに基づき、ターゲット画像を検索する。まず、事前学習済みのキャプション生成モデルを用いて参照画像に対して多様なキャプションを生成し、それらのキャプションと相対的テキストをもとに大規模言語モデル(LLM)を用いて広範な組み合わせ的推論を行うことで、ターゲット画像の潜在的な意味を網羅的にカバーする。次に、相対的テキストがもたらす意味的編集増分を検索プロセスに組み込むため、意味的編集検索(semantic editing search)を設計する。具体的には、最終的な検索スコアとして、相対的意味的増分と絶対的類似度の両方を総合的に考慮し、CLIP特徴空間上でターゲット画像を効果的に検索する。3つの公開データセットにおける広範な実験結果から、本手法SEIZEが新たな最先端(SOTA)性能を達成することが示された。コードは公開されており、https://github.com/yzy-bupt/SEIZE で入手可能である。

意味編集のインクリメンタルな利点がゼロショット組み合わせ画像検索に与える影響 | 最新論文 | HyperAI超神経