HyperAIHyperAI

Command Palette

Search for a command to run...

Zu einer offenen Welt der textgesteuerten Generierung und Manipulation von Gesichtsbildern

Weihao Xia Yujiu Yang Jing-Hao Xue Baoyuan Wu

Zusammenfassung

Bekannte textgesteuerte Bildsynthesemethoden können lediglich Ergebnisse geringer Qualität mit maximal einer Auflösung von \mbox{2562\text{256}^22562} erzeugen, und die textuellen Anweisungen sind auf eine kleine Korpus begrenzt. In dieser Arbeit präsentieren wir einen einheitlichen Rahmen für die Generierung und Manipulation von Gesichtsbildern, der vielfältige und hochwertige Bilder mit einer bisher ungekannten Auflösung von 1024 aus multimodalen Eingaben erzeugt. Insbesondere unterstützt unsere Methode Szenarien im offenen Weltbereich, sowohl mit Bild- als auch mit Texteingaben, ohne jegliche erneute Trainings-, Feinabstimmungs- oder Nachbearbeitungsschritte. Konkret schlagen wir ein neuartiges Paradigma für textgesteuerte Bildgenerierung und -manipulation vor, das die herausragenden Eigenschaften eines vortrainierten GAN-Modells nutzt. Unser vorgeschlagenes Paradigma umfasst zwei innovative Strategien. Die erste Strategie besteht darin, einen Textencoder zu trainieren, um latente Codes zu erzeugen, die mit der hierarchischen Semantik des vortrainierten GAN-Modells kompatibel sind. Die zweite Strategie beinhaltet die direkte Optimierung der latenten Codes im Latentraum des vortrainierten GAN-Modells unter Anleitung eines vortrainierten Sprachmodells. Die latenten Codes können entweder zufällig aus einer Prior-Verteilung sampling oder aus einem gegebenen Bild invertiert werden, was eine inhärente Unterstützung für sowohl die Bildgenerierung als auch die Manipulation aus multimodalen Eingaben – wie Skizzen oder semantische Etiketten – mit textueller Steuerung ermöglicht. Um die textgesteuerte multimodale Synthese zu fördern, führen wir das Multi-Modal CelebA-HQ ein, eine großskalige Datensammlung, die aus realen Gesichtsbildern sowie entsprechenden semantischen Segmentierungskarten, Skizzen und textuellen Beschreibungen besteht. Umfangreiche Experimente auf der vorgestellten Datensammlung belegen die überlegene Leistung unseres vorgeschlagenen Ansatzes. Der Quellcode und die Daten sind unter https://github.com/weihaox/TediGAN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zu einer offenen Welt der textgesteuerten Generierung und Manipulation von Gesichtsbildern | Paper | HyperAI