HyperAIHyperAI

Command Palette

Search for a command to run...

Unified Generative Adversarial Networks für steuerbare Bild-zu-Bild-Übersetzung

Hao Tang Hong Liu Nicu Sebe

Zusammenfassung

Wir schlagen ein einheitliches Generatives adversariales Netzwerk (GAN) für steuerbare Bild-zu-Bild-Übersetzung vor, das heißt, das Übertragen eines Bildes von einer Quell- zu einer Ziel-Domäne unter der Anleitung durch steuerbare Strukturen. Neben der Bedingung durch ein Referenzbild zeigen wir, wie das Modell Bilder unter Berücksichtigung von steuerbaren Strukturen generieren kann, z.B. Klassenlabels, Objektpunkte, menschliche Skelette und semantische Szenenkartierung. Das vorgeschlagene Modell besteht aus einem einzelnen Generator und einem Diskriminator, die ein bedingtes Bild und die Zielstruktur als Eingabe verwenden. Auf diese Weise kann das bedingte Bild Erscheinungsinformationen liefern und die steuerbare Struktur die Strukturinformationen für die Generierung des Zielergebnisses bereitstellen. Darüber hinaus lernt unser Modell die Bild-zu-Bild-Zuordnung durch drei neuartige Verlustfunktionen: Farbverlust, steuerbar strukturgeleiteter Zykluskonsistenzverlust und steuerbar strukturgeleiteter Selbstinhaltserhaltungsverlust. Zudem stellen wir den Fréchet ResNet Abstand (FRD) vor, um die Qualität der generierten Bilder zu bewerten. Experimente an zwei anspruchsvollen Bildübersetzungsproblemen – Handgesten-zu-Gestenerkennung und cross-view-Bildübersetzung – zeigen, dass unser Modell überzeugende Ergebnisse erzielt und bei beiden Aufgaben deutlich bessere Leistungen als andere state-of-the-art-Methoden aufweist. Gleichzeitig ist der vorgeschlagene Rahmen eine einheitliche Lösung, so dass er auch zur Lösung anderer steuerbar strukturgeleiteter Bildübersetzungsprobleme angewendet werden kann, wie etwa landmarkgeleitete Gesichtsausdrucksübersetzung und keypointgeleitete Personendarstellungsgenerierung. Nach bestem Wissen sind wir die Ersten, die es geschafft haben, ein GAN-Framework für alle dieserartigen steuerbar strukturgeleiteten Bildübersetzungsprobleme zu nutzen. Der Code ist unter https://github.com/Ha0Tang/GestureGAN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp