Unüberwachte Bild-zu-Bild-Übersetzungsnetzwerke

Die unüberwachte Bild-zu-Bild-Übersetzung (image-to-image translation) strebt danach, eine gemeinsame Verteilung von Bildern in verschiedenen Domänen zu lernen, indem sie Bilder aus den Randverteilungen (marginal distributions) einzelner Domänen verwendet. Da es eine unendliche Menge an gemeinsamen Verteilungen gibt, die die gegebenen Randverteilungen erzeugen können, kann man ohne zusätzliche Annahmen nichts über die gemeinsame Verteilung aus den Randverteilungen ableiten. Um dieses Problem anzugehen, machen wir eine Annahme über einen geteilten latente Raum (shared-latent space) und schlagen ein unüberwachtes Bild-zu-Bild-Übersetzungsframework auf der Basis von gekoppelten Generativen adversären Netzen (Coupled GANs) vor. Wir vergleichen das vorgeschlagene Framework mit konkurrierenden Ansätzen und präsentieren hochwertige Bildübersetzungsergebnisse bei verschiedenen anspruchsvollen unüberwachten Bildübersetzungsaufgaben, einschließlich der Übersetzung von Straßenszenenbildern, Tierbildern und Gesichtsbildern. Darüber hinaus wenden wir das vorgeschlagene Framework auf die Domänenanpassung (domain adaptation) an und erreichen Spitzenleistungen auf Benchmark-Datensätzen. Der Quellcode und zusätzliche Ergebnisse sind unter https://github.com/mingyuliutw/unit verfügbar.