2ヶ月前
CompoDiff: 潜在拡散を用いた多様な合成画像検索
Gu, Geonmo ; Chun, Sanghyuk ; Kim, Wonjae ; Jun, HeeJae ; Kang, Yoohoon ; Yun, Sangdoo

要約
本論文では、潜在拡散を用いたゼロショット複合画像検索(ZS-CIR)の解決に向けた新しい拡散ベースモデル、CompoDiffを提案します。また、1880万件の参照画像、条件、および対応する目標画像トリプレットを含む新しい合成データセットSynthTriplets18Mを紹介します。CompoDiffとSynthTriplets18Mは、従来のZS-CIRアプローチが持つ問題点、例えば小規模なデータセットや限定的な条件の種類による汎化性能の低さに対処しています。CompoDiffは、FashionIQ、CIRR、CIRCO、GeneCISの4つのZS-CIRベンチマークで新たな最先端の成果を達成するとともに、ネガティブテキストや画像マスク条件など様々な条件を受け入れることでより多様かつ制御可能なZS-CIRを実現しています。さらに、CompoDiffはテキストと画像クエリ間での条件強度の制御可能性や推論速度と性能のトレードオフを示しており、これらは既存のZS-CIR手法では利用できませんでした。コードとデータセットはhttps://github.com/navervision/CompoDiffで公開されています。