HyperAIHyperAI

Command Palette

Search for a command to run...

Die Steuerung eines Diffusionsmodells durch eine schlechte Version desselben自身

Tero Karras Miika Aittala Tuomas Kynkäänniemi Jaakko Lehtinen Timo Aila Samuli Laine

Zusammenfassung

Die zentralen Interessensachsen bei bildgenerierenden Diffusionsmodellen sind die Bildqualität, die Schwankungsbreite der Ergebnisse und die Genauigkeit der Übereinstimmung mit einer gegebenen Bedingung, beispielsweise einer Klassenbezeichnung oder einem Textprompt. Die verbreitete Methode der klassifiziererfreien Leitung nutzt ein unbedingtes Modell, um ein bedingtes Modell zu steuern, was gleichzeitig eine bessere Anpassung an den Prompt und eine höhere Bildqualität ermöglicht, allerdings zu einer verringerten Variabilität führt. Diese Effekte scheinen inhärent verflochten zu sein und somit schwer zu kontrollieren. Wir machen die überraschende Beobachtung, dass eine entkoppelte Steuerung der Bildqualität ohne Verlust an Variabilität möglich ist, indem die Generierung nicht mit einem unbedingten Modell, sondern mit einer kleineren, weniger trainierten Version des Modells selbst gesteuert wird. Dies führt zu erheblichen Verbesserungen bei der ImageNet-Generierung und setzt mit öffentlich verfügbaren Netzwerken neue Rekorde bei den FID-Werten: 1,01 für 64×64 und 1,25 für 512×512. Darüber hinaus ist die Methode auch auf unbedingte Diffusionsmodelle anwendbar und verbessert deren Qualität drastisch.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp