HyperAIHyperAI
il y a 17 jours

Score adversaire par distillation d'identité : dépasser rapidement l'enseignant en une seule étape

Mingyuan Zhou, Huangjie Zheng, Yi Gu, Zhendong Wang, Hai Huang
Score adversaire par distillation d'identité : dépasser rapidement l'enseignant en une seule étape
Résumé

Score Identity Distillation (SiD) est une méthode sans données qui a atteint des performances SOTA (state-of-the-art) dans la génération d’images en n’utilisant qu’un modèle de diffusion préentraîné, sans nécessiter de données d’entraînement. Toutefois, ses performances maximales sont limitées par la précision avec laquelle le modèle préentraîné capture les vraies scores des données à différentes étapes du processus de diffusion. Dans cet article, nous introduisons SiDA (SiD avec perte adversarielle), qui améliore à la fois la qualité de génération et l’efficacité de la distillation en intégrant des images réelles et une perte adversarielle. SiDA utilise l’encodeur du réseau de scores du générateur comme discriminateur, permettant ainsi de distinguer les images réelles des images générées par SiD. La perte adversarielle est normalisée par lot au sein de chaque GPU, puis combinée à la perte originale de SiD. Cette intégration incorpore efficacement le niveau moyen de « fausseté » par lot GPU dans la perte basée sur les pixels de SiD, permettant à SiDA de distiller un générateur à un seul pas. SiDA converge significativement plus rapidement que son prédécesseur lorsqu’elle est distillée depuis le début, et améliore rapidement les performances du modèle initial lors d’un ajustement fin à partir d’un générateur SiD pré-distillé. Cette méthode de distillation unipas adversarielle établit de nouveaux jalons en matière de performance de génération lors de la distillation de modèles de diffusion EDM, atteignant des scores FID de 1,110 sur ImageNet 64x64. Lors de la distillation de modèles EDM2 entraînés sur ImageNet 512x512, notre méthode SiDA dépasse même le modèle enseignant le plus grand, EDM2-XXL, qui avait atteint un score FID de 1,81 en utilisant une guidance sans classificateur (CFG) et 63 étapes de génération. En comparaison, SiDA atteint des scores FID de 2,156 pour la taille XS, 1,669 pour S, 1,488 pour M, 1,413 pour L, 1,379 pour XL et 1,366 pour XXL, tous sans CFG et en une seule étape de génération. Ces résultats mettent en évidence des améliorations substantielles pour tous les tailles de modèles. Notre code est disponible à l’adresse suivante : https://github.com/mingyuanzhou/SiD/tree/sida.