
要約
ゼロショット合成画像検索(ZS-CIR)は、トリプレットラベリングなしでテキストの変更と参照画像をクエリとして使用して目標画像を検索する技術であり、データマイニング分野での注目度が高まっています。現在のZS-CIR研究は、主に事前学習されたビジョン言語モデル(例:CLIP)の汎化能力に依存しています。しかし、事前学習されたビジョン言語モデルとCIRタスクには大きな乖離があります。ビジョン言語モデルは類似性の学習に焦点を当てていますが、CIRはテキストによってガイドされる画像の変更点を学習することを目指しています。本論文では、この乖離を縮めるために新しいラベルなし且つ事前学習済みのマスクチューニングアプローチを提案します。まず、乖離を縮めるためにビジョン言語モデルの対照的学習をCIRタスクに再定式化します。ここでは、入力画像パッチをランダムにマスキングし、画像-テキストペアから$\langle$マスキングされた画像, テキスト, 画像$\rangle$トリプレットを生成します。次に、シンプルながら新規な事前学習済みのマスクチューニング手法を提案します。この手法では、テキストとマスキングされた画像を使用して元の画像の変更点を学習します。このようなシンプルな設計により、提案されたマスクチューニングはより微細なテキストガイドによる変更点を捉える能力が向上します。広範囲にわたる実験結果は、FashionIQ, CIRR, CIRCO, GeneCISという4つのZS-CIRデータセットにおいて当社のアプローチがベースラインモデルに対して著しい優位性を持つことを示しています。当社のコードはhttps://github.com/Chen-Junyang-cn/PLI で公開されています。