HyperAIHyperAI

Command Palette

Search for a command to run...

CompoDiff: 潜在拡散を用いた多様な合成画像検索

Gu Geonmo ; Chun Sanghyuk ; Kim Wonjae ; Jun HeeJae ; Kang Yoohoon ; Yun Sangdoo

概要

本論文では、潜在拡散を用いたゼロショット複合画像検索(ZS-CIR)の解決に向けた新しい拡散ベースモデル、CompoDiffを提案します。また、1880万件の参照画像、条件、および対応する目標画像トリプレットを含む新しい合成データセットSynthTriplets18Mを紹介します。CompoDiffとSynthTriplets18Mは、従来のZS-CIRアプローチが持つ問題点、例えば小規模なデータセットや限定的な条件の種類による汎化性能の低さに対処しています。CompoDiffは、FashionIQ、CIRR、CIRCO、GeneCISの4つのZS-CIRベンチマークで新たな最先端の成果を達成するとともに、ネガティブテキストや画像マスク条件など様々な条件を受け入れることでより多様かつ制御可能なZS-CIRを実現しています。さらに、CompoDiffはテキストと画像クエリ間での条件強度の制御可能性や推論速度と性能のトレードオフを示しており、これらは既存のZS-CIR手法では利用できませんでした。コードとデータセットはhttps://github.com/navervision/CompoDiffで公開されています


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています