17日前
CaLa:組み合わせ画像検索の拡張をための補完的関連学習
Xintong Jiang, Yaxiong Wang, Mengjian Li, Yujiao Wu, Bingwen Hu, Xueming Qian

要約
組み合わせ画像検索(Composed Image Retrieval, CIR)は、画像とテキストのペアをクエリとして用いて対象画像を検索するタスクである。現在の手法はこれをクエリとターゲットのマッチング問題として扱っているが、本研究ではCIRの三項組(triplet)に、この主たる関係以外にも追加の関連性が存在すると主張する。本論文では、三項組をグラフノードとして扱い、その中にある二つの新たな関係を同定する。第一に、テキストを介した画像整合(text-bridged image alignment)という概念を導入する。ここでは、クエリテキストがクエリ画像とターゲット画像の間に橋渡しの役割を果たす。これをネットワーク学習に組み込むため、ハンジベースのクロスアテンション機構を提案する。第二に、補完的テキスト推論(complementary text reasoning)を検討する。CIRを二つの画像が組み合わさって補完的なテキストを推論するというクロスモーダル検索の一種と捉える。これらの視点を効果的に統合するため、二重アテンションに基づくコンポジタ(compositor)を設計した。この補完的関係を、明示的なクエリペアとターゲット画像間の関係と組み合わせることで、CIRに包括的な制約条件を構築する。本研究のフレームワークであるCaLa(Complementary Association Learning for Augmenting Composed Image Retrieval)は、これらの知見を活用する。複数のバックボーンを用いてCIRRおよびFashionIQベンチマーク上で評価した結果、CaLaが組み合わせ画像検索において優れた性能を示すことを実証した。