HyperAIHyperAI
vor 2 Monaten

TediGAN: Textgesteuerte vielfältige Generierung und Manipulation von Gesichtsbildern

Xia, Weihao ; Yang, Yujiu ; Xue, Jing-Hao ; Wu, Baoyuan
TediGAN: Textgesteuerte vielfältige Generierung und Manipulation von Gesichtsbildern
Abstract

In dieser Arbeit schlagen wir TediGAN vor, ein neues Framework für die multimodale Bildgenerierung und -manipulation mit textuellen Beschreibungen. Das vorgeschlagene Verfahren besteht aus drei Komponenten: Modul zur Inversion von StyleGAN, visuell-linguistisches Ähnlichkeitslernen und instanzbezogene Optimierung. Das Inversionsmodul bildet reale Bilder auf den latente Raum eines gut trainierten StyleGAN ab. Das visuell-linguistische Ähnlichkeitslernen lernt die Text-Bild-Zuordnung, indem es Bild und Text in einen gemeinsamen Einbettungsraum abbildet. Die instanzbezogene Optimierung dient der Identitätserhaltung bei der Manipulation. Unser Modell kann vielfältige und hochwertige Bilder in einem bislang unbekannten Auflösungsgrad von 1024 erzeugen. Durch ein Steuermechanismus basierend auf Stilmischung unterstützt unser TediGAN die Bildsynthese mit multimodalen Eingaben wie Skizzen oder semantischen Labels, mit oder ohne instanzbasierte Anleitung. Um eine textgesteuerte multimodale Synthese zu erleichtern, schlagen wir das Large-Scale Dataset Multi-Modal CelebA-HQ vor, das aus realen Gesichtsbildern und entsprechenden semantischen Segmentierungskarten, Skizzen und textuellen Beschreibungen besteht. Ausführliche Experimente mit dem vorgestellten Datensatz zeigen die überlegene Leistungsfähigkeit unserer Methode. Der Code und die Daten sind unter https://github.com/weihaox/TediGAN verfügbar.

TediGAN: Textgesteuerte vielfältige Generierung und Manipulation von Gesichtsbildern | Neueste Forschungsarbeiten | HyperAI