Leistungsstärken von Schichten für die Bild-zu-Bild-Übersetzung

Wir schlagen eine einfache Architektur zur Lösung von unpaarigen Bild-zu-Bild-Übertragungsaufgaben vor, beispielsweise zur Stil- oder Klassenübertragung, Rauschunterdrückung, Entschärfung, Entblockung usw. Ausgehend von einer Bild-Autoencoder-Architektur mit festen Gewichten lernen wir für jede Aufgabe einen Restblock, der im latente Raum operiert und iterativ aufgerufen wird, bis der Zielbereich erreicht ist. Zur Linderung des Exponentialeffekts der Iterationen ist ein spezifisches Trainingsverfahren erforderlich. Im Testzeitpunkt bietet die Methode mehrere Vorteile: Die Anzahl der Gewichtsparameter ist begrenzt, und die kompositionelle Struktur ermöglicht es, die Stärke der Transformation durch die Anzahl der Iterationen zu steuern. Dies ist beispielsweise dann nützlich, wenn Art oder Menge des zu unterdrückenden Rauschens im Voraus nicht bekannt sind. Experimentell liefern wir Beweise für die Funktionalität unserer Methode bei zahlreichen Transformationen. Die Leistung unseres Modells ist mit deutlich weniger Parametern vergleichbar oder besser als die von CycleGAN.