Die Steuerung eines Diffusionsmodells durch eine schlechte Version desselben自身

Die zentralen Interessensachsen bei bildgenerierenden Diffusionsmodellen sind die Bildqualität, die Schwankungsbreite der Ergebnisse und die Genauigkeit der Übereinstimmung mit einer gegebenen Bedingung, beispielsweise einer Klassenbezeichnung oder einem Textprompt. Die verbreitete Methode der klassifiziererfreien Leitung nutzt ein unbedingtes Modell, um ein bedingtes Modell zu steuern, was gleichzeitig eine bessere Anpassung an den Prompt und eine höhere Bildqualität ermöglicht, allerdings zu einer verringerten Variabilität führt. Diese Effekte scheinen inhärent verflochten zu sein und somit schwer zu kontrollieren. Wir machen die überraschende Beobachtung, dass eine entkoppelte Steuerung der Bildqualität ohne Verlust an Variabilität möglich ist, indem die Generierung nicht mit einem unbedingten Modell, sondern mit einer kleineren, weniger trainierten Version des Modells selbst gesteuert wird. Dies führt zu erheblichen Verbesserungen bei der ImageNet-Generierung und setzt mit öffentlich verfügbaren Netzwerken neue Rekorde bei den FID-Werten: 1,01 für 64×64 und 1,25 für 512×512. Darüber hinaus ist die Methode auch auf unbedingte Diffusionsmodelle anwendbar und verbessert deren Qualität drastisch.