Diffusionsmodelle sind inhärente One-Step-Generatoren

Diffusionsmodelle (DMs) haben erhebliche Erfolge bei der Bildgenerierung und anderen Anwendungen erzielt. Durch eine feine Stichprobenerzeugung entlang der durch den SDE/ODE-Löser basierend auf einem gut trainierten Score-Modell definierten Trajektorie können DMs bemerkenswert hochwertige Ergebnisse liefern. Diese präzise Stichprobenerzeugung erfordert jedoch oft mehrere Schritte und ist rechenintensiv. Um dieses Problem anzugehen, wurden instanzbasierte Distillationmethoden vorgeschlagen, um einen einstufigen Generator aus einem DM zu erzeugen, indem ein einfacheres Schülermodell ein komplexeres Lehrermodell nachahmt. Unser Forschungsresultat zeigt jedoch eine inhärente Beschränkung dieser Ansätze auf: Das Lehrermodell, das mehr Schritte und mehr Parameter aufweist, befindet sich in anderen lokalen Minima als das Schülermodell, was zu suboptimaler Leistung führt, wenn das Schülermodell das Verhalten des Lehrers replizieren soll. Um dieses Problem zu vermeiden, führen wir eine neuartige verteilungsbasierte Distillation ein, die eine spezielle verteilungsbasierte Verlustfunktion verwendet. Diese Methode erreicht Ergebnisse, die die derzeitigen State-of-the-Art (SOTA)-Werte übertreffen, und benötigt dabei erheblich weniger Trainingsbilder. Zudem zeigen wir, dass die Schichten von DMs zu verschiedenen Zeitpunkten unterschiedlich aktiviert werden, was eine inhärente Fähigkeit zur einstufigen Bildgenerierung ermöglicht. Durch das Fixieren der meisten konvolutionellen Schichten eines DMs während der verteilungsbasierten Distillation kann diese angeborene Fähigkeit ausgenutzt und die Leistung weiter verbessert werden. Unser Ansatz erreicht SOTA-Ergebnisse auf CIFAR-10 (FID 1,54), AFHQv2 64x64 (FID 1,23), FFHQ 64x64 (FID 0,85) und ImageNet 64x64 (FID 1,16) mit hoher Effizienz. Die meisten dieser Ergebnisse wurden mit lediglich 5 Millionen Trainingsbildern innerhalb von sechs Stunden auf acht A100-GPUs erzielt.