18日前

条件付きかつ構成可能な画像検索:CLIPベース特徴量の統合と部分的ファインチューニング

{Alberto del Bimbo, Tiberio Uricchio, Marco Bertini, Alberto Baldrati}
条件付きかつ構成可能な画像検索:CLIPベース特徴量の統合と部分的ファインチューニング
要約

本稿では、CLIP特徴に基づく条件付きかつ組み合わせ型画像検索の手法を提案する。このコンテンツベース画像検索(CBIR)の拡張手法では、ユーザーの意図に関する情報を含むテキストと画像を統合し、ECサイトなど特定の応用分野において有用な情報提供を実現する。提案手法は、初期の訓練段階において視覚的特徴とテキスト的特徴を単純に組み合わせることで、CLIPのテキストエンコーダーを微調整する。その後の第二段階では、視覚的特徴とテキスト的特徴をより複雑に統合するコンビナートネットワークを学習する。両段階において対照学習(contrastive learning)が用いられる。本手法は、FashionIQデータセットにおける条件付きCBIRおよび、より最近のCIRRデータセットにおける組み合わせ型CBIRにおいて、現行の最先端性能を達成した。