
要約
Composed Image Retrieval(CIR)タスクは、参照画像と変更されたテキストから構成される複合クエリを使用して目標画像を検索することを目指しています。先進的な手法では、適切な正例と負例を利用することで恩恵を受ける対照学習を最適化目標として利用することが一般的です。しかし、CIRのトリプレット生成には高い手動アノテーションコストがかかるため、正例が限られてしまいます。さらに、既存の手法ではバッチ内の負例サンプリングが一般的で、これによりモデルに利用できる負例の数が減少します。これらの問題に対処するため、私たちはマルチモーダル大規模言語モデルを活用してCIR用のトリプレットを構築するデータ生成方法を提案します。また、微調整時により多くの負例を導入するために、二段階微調整フレームワークを設計しました。このフレームワークの第二段階では、多数の静的な負例表現が導入され、表現空間の迅速な最適化が可能となります。上記の二つの改善点は効果的に積み重ねることができ、プラグアンドプレイ設計として既存のCIRモデルに容易に適用できます。元のアーキテクチャを変更することなくです。広範な実験と消去法分析によって示されているように、私たちの手法は正例と負例のスケーリングに効果的であり、FashionIQおよびCIRRデータセットにおいて最先端の結果を達成しています。さらに、私たちの手法はゼロショット複合画像検索でも優れた性能を発揮し、低リソース状況での新しいCIRソリューションを提供しています。私たちのコードとデータはhttps://github.com/BUAADreamer/SPN4CIRで公開されています。