Unified Generative Adversarial Networks für steuerbare Bild-zu-Bild-Übersetzung

Wir schlagen ein einheitliches Generatives adversariales Netzwerk (GAN) für steuerbare Bild-zu-Bild-Übersetzung vor, das heißt, das Übertragen eines Bildes von einer Quell- zu einer Ziel-Domäne unter der Anleitung durch steuerbare Strukturen. Neben der Bedingung durch ein Referenzbild zeigen wir, wie das Modell Bilder unter Berücksichtigung von steuerbaren Strukturen generieren kann, z.B. Klassenlabels, Objektpunkte, menschliche Skelette und semantische Szenenkartierung. Das vorgeschlagene Modell besteht aus einem einzelnen Generator und einem Diskriminator, die ein bedingtes Bild und die Zielstruktur als Eingabe verwenden. Auf diese Weise kann das bedingte Bild Erscheinungsinformationen liefern und die steuerbare Struktur die Strukturinformationen für die Generierung des Zielergebnisses bereitstellen. Darüber hinaus lernt unser Modell die Bild-zu-Bild-Zuordnung durch drei neuartige Verlustfunktionen: Farbverlust, steuerbar strukturgeleiteter Zykluskonsistenzverlust und steuerbar strukturgeleiteter Selbstinhaltserhaltungsverlust. Zudem stellen wir den Fréchet ResNet Abstand (FRD) vor, um die Qualität der generierten Bilder zu bewerten. Experimente an zwei anspruchsvollen Bildübersetzungsproblemen – Handgesten-zu-Gestenerkennung und cross-view-Bildübersetzung – zeigen, dass unser Modell überzeugende Ergebnisse erzielt und bei beiden Aufgaben deutlich bessere Leistungen als andere state-of-the-art-Methoden aufweist. Gleichzeitig ist der vorgeschlagene Rahmen eine einheitliche Lösung, so dass er auch zur Lösung anderer steuerbar strukturgeleiteter Bildübersetzungsprobleme angewendet werden kann, wie etwa landmarkgeleitete Gesichtsausdrucksübersetzung und keypointgeleitete Personendarstellungsgenerierung. Nach bestem Wissen sind wir die Ersten, die es geschafft haben, ein GAN-Framework für alle dieserartigen steuerbar strukturgeleiteten Bildübersetzungsprobleme zu nutzen. Der Code ist unter https://github.com/Ha0Tang/GestureGAN verfügbar.