Make-A-Scene: Szenenbasierte Text-zu-Bild-Generierung mit menschlichen Priorisierungen

Neuere Text-zu-Bild-Generationsmethoden bieten eine einfache, jedoch faszinierende Umwandlungsfähigkeit zwischen Text- und Bilddomänen. Obwohl diese Methoden schrittweise die Bildqualität und die Relevanz des Textes für die generierten Bilder verbessert haben, bleiben mehrere zentrale Lücken ungelöst, was die Anwendbarkeit und Qualität einschränkt. Wir stellen eine neuartige Text-zu-Bild-Methode vor, die diese Lücken adressiert, indem sie (i) eine einfache Steuerungsmöglichkeit neben dem Text in Form einer Szene ermöglicht, (ii) Elemente einführt, die den Tokenisierungsprozess erheblich verbessern, indem sie domänenspezifisches Wissen über Schlüsselbildregionen (Gesichter und auffällige Objekte) nutzt, und (iii) die Klassifizierer-freie Leitfunktion für den Transformer-Anwendungsfall anpasst. Unser Modell erreicht state-of-the-art Ergebnisse hinsichtlich FID und menschlicher Bewertungen und ermöglicht die Erzeugung hochfidelitätiger Bilder mit einer Auflösung von 512×512 Pixeln, wodurch die visuelle Qualität signifikant verbessert wird. Durch die Szene-Steuerbarkeit eröffnen wir mehrere neue Fähigkeiten: (i) Szenebearbeitung, (ii) Textbearbeitung mit Anker-Szenen, (iii) Überwindung von außerhalb der Verteilung liegenden Textprompts und (iv) die Generierung von Geschichtsillustrationen, wie in der von uns verfassten Geschichte demonstriert.