18日前

CLIPベース特徴を活用した効果的な条件付きかつ構成可能な画像検索

{Alberto del Bimbo, Tiberio Uricchio, Marco Bertini, Alberto Baldrati}
CLIPベース特徴を活用した効果的な条件付きかつ構成可能な画像検索
要約

条件付きおよび構成型画像検索は、クエリ画像にユーザーの意図を表現する追加のテキストを組み合わせることで、従来のCBIR(コンテントベース画像検索)システムを拡張する手法であり、クエリ画像の視覚的コンテンツに関する追加要件を記述可能にする。この種の検索は、eコマース分野において特に有用であり、たとえばインタラクティブなマルチモーダル検索やチャットボットの開発に活用できる。本デモでは、対照学習(contrastive learning)を用いて訓練されたコンビナーターネットワークに基づくインタラクティブシステムを紹介する。このシステムは、OpenAIのCLIPネットワークから得られる視覚的特徴とテキスト的特徴を統合し、条件付きCBIRに対応する。本システムは、eショッピングの検索エンジンの性能向上に応用可能である。たとえばファッション分野において、ある候補画像を起点として、その視覚的コンテンツに関する視覚的差異(色、柄、形状など)を指定することで、ドレス、シャツ、トップスなどのアイテムを検索可能となる。提案するネットワークは、FashionIQデータセットおよびより最近のCIRRデータセットにおいて、最先端の性能を達成しており、条件付き検索におけるファッション分野への適用性、およびより一般的なコンテンツに対して適用可能な構成型画像検索という汎用的なタスクへの有効性を示している。

CLIPベース特徴を活用した効果的な条件付きかつ構成可能な画像検索 | 最新論文 | HyperAI超神経