HyperAIHyperAI

Command Palette

Search for a command to run...

Zu multimodaler Bild-zu-Bild-Übersetzung

Jun-Yan Zhu Richard Zhang Deepak Pathak Trevor Darrell Alexei A. Efros Oliver Wang Eli Shechtman

Zusammenfassung

Viele Bild-zu-Bild-Übersetzungsprobleme sind mehrdeutig, da ein einzelnes Eingangsbild auf mehrere mögliche Ausgaben abgebildet werden kann. In dieser Arbeit zielen wir darauf ab, eine \emph{Verteilung} von möglichen Ausgaben in einem bedingten generativen Modellierungsansatz zu modellieren. Die Mehrdeutigkeit der Abbildung wird in einem niedrigdimensionalen latenten Vektor verdichtet, der zur Testzeit zufällig sampelt werden kann. Ein Generator lernt, das gegebene Eingangsbild, kombiniert mit diesem latenten Code, auf die Ausgabe abzubilden. Wir fördern explizit die invertierbare Beziehung zwischen der Ausgabe und dem latenten Code. Dies hilft dabei, eine viele-zu-eine Abbildung vom latenten Code zur Ausgabe während des Trainings zu verhindern, was auch als das Problem der Moduszerfall bekannt ist, und erzeugt damit vielfältigere Ergebnisse. Wir untersuchen mehrere Varianten dieses Ansatzes durch den Einsatz verschiedener Trainingsziele, Netzarchitekturen und Methoden zur Injektion des latenten Codes. Unsere vorgeschlagene Methode fördert bijektive Konsistenz zwischen der latenten Kodierung und den Ausgabemodi. Wir präsentieren einen systematischen Vergleich unserer Methode und anderer Varianten hinsichtlich wahrnehmungstechnischer Realismus und Vielfalt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp