4ヶ月前
Zero-shot Composed Text-Image Retrieval ゼロショット合成テキスト-イメージ検索
Yikun Liu; Jiangchao Yao; Ya Zhang; Yanfeng Wang; Weidi Xie

要約
本論文では、複合画像検索(Composed Image Retrieval: CIR)の問題を取り扱います。CIRは、テキストと画像などの多様なモダリティ情報を融合するモデルを訓練し、クエリに正確に一致する画像を検索することで、ユーザーの表現能力を拡張することを目指しています。以下の貢献を行いました:(i) 大規模な画像-テキストペアデータセット(例:LAION-5Bのサブセット)を単純に活用して、CIRモデルの学習用データセットを自動的に構築するスケーラブルなパイプラインを提案しました;(ii) 簡単かつ効率的な融合メカニズムを採用し、異なるモダリティからの情報を適応的に組み合わせるトランスフォーマーベースの適応集約モデル(TransAgg)を導入しました;(iii) 提案したデータ構築手順の有用性とTransAggの主要コンポーネントの有効性について、広範な削減研究を行いました;(iv) 公開されているベンチマーク(例:CIRRおよびFashionIQ)でゼロショットシナリオ下での評価を行い、自動構築されたデータセットで学習後、直接対象となるダウンストリームデータセット上で推論を行う場合、提案手法は既存の最先端(State-of-the-Art: SOTA)モデルと同等か、または著しく優れた性能を示しました。プロジェクトページ: https://code-kunkun.github.io/ZS-CIR/