vor 2 Monaten

Zu multimodaler Bild-zu-Bild-Übersetzung

Jun-Yan Zhu; Richard Zhang; Deepak Pathak; Trevor Darrell; Alexei A. Efros; Oliver Wang; Eli Shechtman

Abstract

Viele Bild-zu-Bild-Übersetzungsprobleme sind mehrdeutig, da ein einzelnes Eingangsbild auf mehrere mögliche Ausgaben abgebildet werden kann. In dieser Arbeit zielen wir darauf ab, eine \emph{Verteilung} von möglichen Ausgaben in einem bedingten generativen Modellierungsansatz zu modellieren. Die Mehrdeutigkeit der Abbildung wird in einem niedrigdimensionalen latenten Vektor verdichtet, der zur Testzeit zufällig sampelt werden kann. Ein Generator lernt, das gegebene Eingangsbild, kombiniert mit diesem latenten Code, auf die Ausgabe abzubilden. Wir fördern explizit die invertierbare Beziehung zwischen der Ausgabe und dem latenten Code. Dies hilft dabei, eine viele-zu-eine Abbildung vom latenten Code zur Ausgabe während des Trainings zu verhindern, was auch als das Problem der Moduszerfall bekannt ist, und erzeugt damit vielfältigere Ergebnisse. Wir untersuchen mehrere Varianten dieses Ansatzes durch den Einsatz verschiedener Trainingsziele, Netzarchitekturen und Methoden zur Injektion des latenten Codes. Unsere vorgeschlagene Methode fördert bijektive Konsistenz zwischen der latenten Kodierung und den Ausgabemodi. Wir präsentieren einen systematischen Vergleich unserer Methode und anderer Varianten hinsichtlich wahrnehmungstechnischer Realismus und Vielfalt.