17日前

対照学習およびタスク指向型CLIP特徴を用いた合成画像検索

Alberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto del Bimbo

要約

参照画像と相対的キャプションから構成されるクエリが与えられた場合、コンポーズド画像検索（Composed Image Retrieval）の目的は、キャプションによって表現された変更を反映しつつ、参照画像と視覚的に類似した画像を検索することである。近年の研究により、大規模な視覚言語事前学習（Vision and Language Pre-trained, VLP）モデルが多様なタスクにおいて有効性を示していることが明らかになったため、本研究ではOpenAIのCLIPモデルから得られる特徴量を用いてこのタスクに取り組む。まず、視覚的特徴量とテキスト特徴量の要素ごとの和を用いて、CLIPの両方のエンコーダーに対してタスク指向的な微調整（fine-tuning）を実施する。次に、第二段階として、双モーダル情報を統合し、結合された特徴量を生成するコンビナーアーネットワーク（Combiner network）を学習させる。このネットワークは、画像とテキストの特徴量を適切に統合することで、検索に用いる新たな特徴量を提供する。両段階の学習において、対比学習（contrastive learning）を用いる。ベースラインとして純粋なCLIP特徴量を用いた場合と比較して、実験結果からタスク指向的な微調整および精心に設計されたコンビナーアーネットワークが極めて有効であることが示され、ファッションIQ（FashionIQ）およびCIRRという、コンポーズド画像検索において広く用いられ且つ困難な2つのデータセットにおいて、より複雑な最先端手法を上回る性能を達成した。コードおよび事前学習済みモデルは、https://github.com/ABaldrati/CLIP4Cir にて公開されている。