Ihr Diffusionsmodell ist heimlich ein Zero-Shot-Klassifikator

Die jüngste Welle großer Text-zu-Bild-Diffusionsmodelle hat unsere Fähigkeiten zur textbasierten Bildgenerierung dramatisch gesteigert. Diese Modelle können realistische Bilder für eine erstaunliche Vielzahl von Anforderungen generieren und zeigen beeindruckende Kompositionsverallgemeinerungsfähigkeiten. Bislang haben fast alle Anwendungsfälle sich ausschließlich auf das Sampling konzentriert; jedoch können Diffusionsmodelle auch bedingte Dichteschätzungen bereitstellen, die für Aufgaben über die Bildgenerierung hinaus nützlich sind. In dieser Arbeit zeigen wir, dass die Dichteschätzungen von großen Text-zu-Bild-Diffusionsmodellen wie Stable Diffusion genutzt werden können, um Zero-Shot-Klassifikation ohne zusätzliches Training durchzuführen. Unser generativer Ansatz zur Klassifikation, den wir als Diffusion Classifier bezeichnen, erzielt starke Ergebnisse bei einer Vielzahl von Benchmarks und übertrifft alternative Methoden zur Wissensextraktion aus Diffusionsmodellen. Obwohl zwischen generativen und diskriminativen Ansätzen bei Zero-Shot-Erkennungsaufgaben noch ein Unterschied besteht, verfügt unser diffusionsbasierter Ansatz über signifikant stärkere multimodale Kompositionsverallgemeinerungsfähigkeiten als wettbewerbsfähige diskriminative Ansätze. Schließlich extrahieren wir mit dem Diffusion Classifier Standardklassifikatoren aus klassenbedingten Diffusionsmodellen, die auf ImageNet trainiert wurden. Unsere Modelle erreichen starke Klassifikationsleistungen unter Verwendung nur schwacher Erweiterungen und zeigen qualitativ bessere „effektive Robustheit“ gegenüber Verteilungsverschiebungen. Insgesamt sind unsere Ergebnisse ein Schritt in Richtung der Nutzung generativer anstelle diskriminativer Modelle für nachgelagerte Aufgaben. Ergebnisse und Visualisierungen finden Sie unter https://diffusion-classifier.github.io/