2ヶ月前
あなたの拡散モデルは実際にはゼロショット分類器です
Alexander C. Li; Mihir Prabhudesai; Shivam Duggal; Ellis Brown; Deepak Pathak

要約
最近の大規模なテキストから画像への生成モデルの波は、私たちのテキストベースの画像生成能力を大幅に向上させました。これらのモデルは、驚くほど多様なプロンプトに対して現実的な画像を生成でき、印象的な組み合わせ的一般化能力を示しています。これまでのほとんどすべての用途はサンプリングに焦点を当てていましたが、拡散モデルは画像生成以外のタスクにも有用な条件付き密度推定を提供することができます。本論文では、Stable Diffusionなどの大規模なテキストから画像への生成モデルからの密度推定を活用して、追加の学習なしでゼロショット分類を行う方法を示します。我々が提案する分類手法であるDiffusion Classifier(拡散分類器)は、様々なベンチマークで強力な結果を得ており、拡散モデルから知識を抽出する他の手法よりも優れています。ゼロショット認識タスクにおいては、生成的手法と判別的手法との間にギャップが残っていますが、我々の拡散に基づく手法は競合する判別的手法よりも著しく強いマルチモーダルな組み合わせ的推論能力を持っています。最後に、ImageNetで訓練されたクラス条件付き拡散モデルから標準的な分類器を抽出するためにDiffusion Classifierを使用しました。我々のモデルは弱いデータ拡張のみを使用して強力な分類性能を達成し、分布シフトに対する「効果的な堅牢性」も質的に優れています。全体として、本研究の結果は下流タスクにおける生成的手法の利用促進の一歩となるでしょう。結果と可視化については以下のURLをご覧ください: https://diffusion-classifier.github.io/