HyperAIHyperAI
vor 17 Tagen

Adversarial Score Identity Distillation: In einem Schritt rasch den Lehrer übertreffen

Mingyuan Zhou, Huangjie Zheng, Yi Gu, Zhendong Wang, Hai Huang
Adversarial Score Identity Distillation: In einem Schritt rasch den Lehrer übertreffen
Abstract

Score Identity Distillation (SiD) ist eine datenfreie Methode, die durch die alleinige Nutzung eines vortrainierten Diffusionsmodells SOTA-Leistungen in der Bildgenerierung erzielt, ohne dass Trainingssdaten erforderlich sind. Ihre endgültige Leistung ist jedoch begrenzt durch die Genauigkeit, mit der das vortrainierte Modell die tatsächlichen Datenscores zu verschiedenen Phasen des Diffusionsprozesses erfasst. In diesem Paper stellen wir SiDA (SiD mit adversarieller Verlustfunktion) vor, das nicht nur die Generierungsqualität verbessert, sondern auch die Effizienz der Distillation durch die Einbeziehung echter Bilder und eines adversariellen Verlustes steigert. SiDA nutzt den Encoder des Score-Netzwerks des Generators als Diskriminator, um echte Bilder von von SiD generierten Bildern zu unterscheiden. Der adversarielle Verlust wird innerhalb jeder GPU batch-normalisiert und anschließend mit dem ursprünglichen SiD-Verlust kombiniert. Diese Integration integriert effektiv den durchschnittlichen „Falschheitsgrad“ pro GPU-Batch in den pixelbasierten SiD-Verlust, wodurch SiDA die Distillation eines Ein-Schritt-Generators ermöglicht. SiDA konvergiert signifikant schneller als seine Vorgängerin, wenn von Grund auf distilliert wird, und verbessert während der Feinabstimmung von einem bereits vorgedistillierten SiD-Generator rasch die Leistung des ursprünglichen Modells. Diese einstufige adversarielle Distillation setzt neue Maßstäbe in der Generierungsleistung bei der Distillation von EDM-Diffusionsmodellen und erreicht FID-Scores von 1,110 auf ImageNet 64×64. Bei der Distillation von EDM2-Modellen, die auf ImageNet 512×512 trainiert wurden, übertrifft unsere SiDA-Methode sogar das größte Lehrmodell, EDM2-XXL, das mit Klassifikatorfreier Leitlinie (CFG) und 63 Generierungsschritten einen FID-Wert von 1,81 erreichte. Im Gegensatz dazu erzielt SiDA FID-Scores von 2,156 (XS), 1,669 (S), 1,488 (M), 1,413 (L), 1,379 (XL) und 1,366 (XXL), jeweils ohne CFG und in nur einem Generierungsschritt. Diese Ergebnisse unterstreichen erhebliche Verbesserungen bei allen Modellgrößen. Unser Code ist verfügbar unter https://github.com/mingyuanzhou/SiD/tree/sida.