Multimodale unüberwachte Bild-zu-Bild-Übersetzung

Die unüberwachte Bild-zu-Bild-Übersetzung ist ein wichtiges und herausforderndes Problem im Bereich der Computer Vision. Gegeben ist ein Bild aus dem Quellbereich, das Ziel besteht darin, die bedingte Verteilung entsprechender Bilder im Zielbereich zu lernen, ohne je Paare von entsprechenden Bildern gesehen zu haben. Obwohl diese bedingte Verteilung inhärent multimodal ist, machen bestehende Ansätze eine übermäßig vereinfachende Annahme und modellieren sie als deterministische Einer-zu-Einer-Zuordnung. Als Folge davon sind sie nicht in der Lage, vielfältige Ausgaben aus einem gegebenen Quellbereichsbild zu generieren. Um diese Einschränkung zu beheben, schlagen wir einen Rahmen für multimodale unüberwachte Bild-zu-Bild-Übersetzung (MUNIT) vor. Wir gehen davon aus, dass die Bildrepräsentation in einen inhaltsbasierten Code zerlegt werden kann, der bereichsinvariant ist, und in einen stilspezifischen Code, der bereichsspezifische Eigenschaften erfasst. Um ein Bild in einen anderen Bereich zu übersetzen, kombinieren wir dessen Inhaltscode mit einem zufälligen Stilcode, der aus dem Stilraum des Zielbereichs entnommen wird. Wir analysieren den vorgeschlagenen Rahmen und etablieren mehrere theoretische Ergebnisse. Ausführliche Experimente mit Vergleichen zu den aktuellen Stand-der-Technik-Ansätzen verdeutlichen weiterhin den Vorteil des vorgeschlagenen Rahmens. Darüber hinaus ermöglicht unser Rahmen es Benutzern, den Stil der Übersetzungsoutputs durch Bereitstellung eines Beispielstilbilds zu steuern. Der Code und vortrainierte Modelle sind unter https://github.com/nvlabs/MUNIT verfügbar.