Zu einer offenen Welt der textgesteuerten Generierung und Manipulation von Gesichtsbildern

Bekannte textgesteuerte Bildsynthesemethoden können lediglich Ergebnisse geringer Qualität mit maximal einer Auflösung von \mbox{$\text{256}^2$} erzeugen, und die textuellen Anweisungen sind auf eine kleine Korpus begrenzt. In dieser Arbeit präsentieren wir einen einheitlichen Rahmen für die Generierung und Manipulation von Gesichtsbildern, der vielfältige und hochwertige Bilder mit einer bisher ungekannten Auflösung von 1024 aus multimodalen Eingaben erzeugt. Insbesondere unterstützt unsere Methode Szenarien im offenen Weltbereich, sowohl mit Bild- als auch mit Texteingaben, ohne jegliche erneute Trainings-, Feinabstimmungs- oder Nachbearbeitungsschritte. Konkret schlagen wir ein neuartiges Paradigma für textgesteuerte Bildgenerierung und -manipulation vor, das die herausragenden Eigenschaften eines vortrainierten GAN-Modells nutzt. Unser vorgeschlagenes Paradigma umfasst zwei innovative Strategien. Die erste Strategie besteht darin, einen Textencoder zu trainieren, um latente Codes zu erzeugen, die mit der hierarchischen Semantik des vortrainierten GAN-Modells kompatibel sind. Die zweite Strategie beinhaltet die direkte Optimierung der latenten Codes im Latentraum des vortrainierten GAN-Modells unter Anleitung eines vortrainierten Sprachmodells. Die latenten Codes können entweder zufällig aus einer Prior-Verteilung sampling oder aus einem gegebenen Bild invertiert werden, was eine inhärente Unterstützung für sowohl die Bildgenerierung als auch die Manipulation aus multimodalen Eingaben – wie Skizzen oder semantische Etiketten – mit textueller Steuerung ermöglicht. Um die textgesteuerte multimodale Synthese zu fördern, führen wir das Multi-Modal CelebA-HQ ein, eine großskalige Datensammlung, die aus realen Gesichtsbildern sowie entsprechenden semantischen Segmentierungskarten, Skizzen und textuellen Beschreibungen besteht. Umfangreiche Experimente auf der vorgestellten Datensammlung belegen die überlegene Leistung unseres vorgeschlagenen Ansatzes. Der Quellcode und die Daten sind unter https://github.com/weihaox/TediGAN verfügbar.