HyperAIHyperAI
il y a 2 mois

Votre modèle de diffusion est en réalité un classifieur à zéro coup d'essai.

Alexander C. Li; Mihir Prabhudesai; Shivam Duggal; Ellis Brown; Deepak Pathak
Votre modèle de diffusion est en réalité un classifieur à zéro coup d'essai.
Résumé

L'onde récente de modèles de diffusion à grande échelle pour la génération d'images à partir de texte a considérablement amélioré nos capacités de génération d'images basées sur le texte. Ces modèles sont capables de produire des images réalistes pour une variété impressionnante de prompts et montrent des capacités de généralisation compositionnelle remarquables. Jusqu'à présent, presque toutes les applications ont été exclusivement axées sur l'échantillonnage ; cependant, les modèles de diffusion peuvent également fournir des estimations de densité conditionnelle, utiles pour des tâches au-delà de la génération d'images. Dans cet article, nous montrons que les estimations de densité provenant de modèles de diffusion à grande échelle pour la génération d'images à partir de texte, comme Stable Diffusion, peuvent être utilisées pour effectuer une classification zéro-shot sans aucun entraînement supplémentaire. Notre approche générative de classification, que nous appelons Diffusion Classifier, obtient des résultats solides sur diverses benchmarks et surpasse les méthodes alternatives d'extraction de connaissances à partir des modèles de diffusion. Bien qu'un écart subsiste entre les approches génératives et discriminatives dans les tâches de reconnaissance zéro-shot, notre approche basée sur la diffusion possède une capacité significativement plus forte en matière de raisonnement compositionnel multimodal par rapport aux approches discriminatives concurrentes. Enfin, nous utilisons le Diffusion Classifier pour extraire des classifieurs standards à partir de modèles de diffusion conditionnels aux classes formés sur ImageNet. Nos modèles atteignent des performances solides en classification en utilisant uniquement des augmentations faibles et montrent une meilleure robustesse effective qualitative face au décalage distributionnel. Dans l'ensemble, nos résultats constituent un pas vers l'utilisation des modèles génératifs plutôt que discriminatifs pour les tâches en aval. Les résultats et visualisations sont disponibles à l'adresse suivante : https://diffusion-classifier.github.io/