2ヶ月前
Pic2Word: 画像を単語にマッピングしてゼロショット合成画像検索を行う
Saito, Kuniaki ; Sohn, Kihyuk ; Zhang, Xiang ; Li, Chun-Liang ; Lee, Chen-Yu ; Saenko, Kate ; Pfister, Tomas

要約
組合画像検索(Composed Image Retrieval: CIR)では、ユーザーがクエリ画像とテキストを組み合わせて目的の対象を説明します。既存の手法は、クエリ画像、テキスト仕様、および対象画像からなるラベル付き三つ組を使用してCIRモデルの教師あり学習に依存しています。このような三つ組のラベル付けはコストがかかり、CIRの広範な応用を妨げています。本研究では、重要なタスクであるゼロショット組合画像検索(Zero-Shot Composed Image Retrieval: ZS-CIR)について考察し、訓練にラベル付き三つ組を必要としないCIRモデルの構築を目指します。この目的達成のために、弱いラベル付き画像-キャプションペアと未ラベル画像データセットのみを使用して訓練できる新しい手法Pic2Wordを提案します。既存の教師ありCIRモデルとは異なり、当モデルは弱いラベルまたは未ラベルデータセットで訓練され、属性編集、オブジェクト合成、ドメイン変換などの多様なZS-CIRタスクにおいて強力な汎化性能を示します。当アプローチは一般的なCIRベンチマークであるCIRRおよびFashion-IQにおいていくつかの教師ありCIR手法を上回ります。コードは https://github.com/google-research/composed_image_retrieval で公開されます。