HyperAIHyperAI
vor 14 Tagen

GANs N' Roses: Stabile, steuerbare, vielfältige Bild-zu-Bild-Übersetzung (funktioniert auch für Videos!)

Min Jin Chong, David Forsyth
GANs N' Roses: Stabile, steuerbare, vielfältige Bild-zu-Bild-Übersetzung (funktioniert auch für Videos!)
Abstract

Wir zeigen, wie man eine Abbildung lernt, die einen aus einem Gesichtsbild abgeleiteten Content-Code und einen zufällig gewählten Style-Code in ein Anime-Bild transformiert. Wir leiten eine adversarische Verlustfunktion aus unseren einfachen und effektiven Definitionen von Stil und Inhalt ab. Dieser adversarische Verlust gewährleistet, dass die Abbildung vielfältig ist – aus einem einzigen Content-Code können eine sehr breite Palette an Anime-Stilen generiert werden. Unter plausiblen Annahmen ist die Abbildung nicht nur vielfältig, sondern repräsentiert auch korrekt die Wahrscheinlichkeit eines Anime-Bildes, bedingt auf ein Eingabegesicht. Im Gegensatz dazu können aktuelle multimodale Generationsverfahren die komplexen Stile, die in Anime auftreten, nicht erfassen. Umfangreiche quantitative Experimente stützen die Annahme, dass die Abbildung korrekt ist. Umfangreiche qualitative Ergebnisse zeigen, dass die Methode eine viel vielfältigere Palette an Stilen generieren kann als bestehende State-of-the-Art-Verfahren. Schließlich zeigen wir, dass unsere Formalisierung von Inhalt und Stil es ermöglicht, Video-zu-Video-Übersetzungen durchzuführen, ohne jemals auf Videos trainiert zu haben.

GANs N' Roses: Stabile, steuerbare, vielfältige Bild-zu-Bild-Übersetzung (funktioniert auch für Videos!) | Neueste Forschungsarbeiten | HyperAI