DRANet: Disentangling Representation and Adaptation Networks for Unsupervised Cross-Domain Adaptation

In diesem Artikel stellen wir DRANet vor, eine Netzwerkarchitektur, die Bildrepräsentationen entkoppelt und visuelle Attribute in einem latente Raum für die unsupervisierte cross-domain-Anpassung überträgt. Im Gegensatz zu bestehenden Methoden der Domänenanpassung, die assoziierte Merkmale lernen, die eine gemeinsame Domäne teilen, bewahrt DRANet die Unterscheidbarkeit der jeweiligen Domänenmerkmale. Unser Modell kodiert individuelle Repräsentationen von Inhalt (Szenenstruktur) und Stil (künstlerischer Erscheinungsbild) sowohl aus Quell- als auch aus Zielbildern. Anschließend passt es die Domäne an, indem es den übertragenen Stil-Faktor zusammen mit lernbaren Gewichten, die jeweils für jede Domäne spezifiziert sind, in den Inhalt-Faktor integriert. Dieses Lernframework ermöglicht eine bidirektionale oder mehrfache Domänenanpassung mit einem einzigen Encoder-Decoder-Netzwerk und führt eine Ausrichtung des Domänenverschiebungsunterschieds durch. Darüber hinaus schlagen wir ein inhaltsadaptive Domänenübertragungsmodul vor, das dabei unterstützt, die Szenenstruktur zu bewahren, während der Stil übertragen wird. Umfangreiche Experimente zeigen, dass unser Modell die Trennung von Inhalt- und Stil-Faktoren erfolgreich bewirkt und visuell ansprechende, domänenübertragene Bilder synthetisiert. Die vorgeschlagene Methode erreicht state-of-the-art-Leistungen bei Standardaufgaben der Ziffernerkennung sowie bei semantischen Segmentierungsaufgaben.