Bild-zu-Bild-Übersetzung mit Bedingung niedriger Auflösung

Die meisten Methoden zur Bild-zu-Bild-Übersetzung konzentrieren sich darauf, Abbildungen zwischen Domänen zu lernen, unter der Annahme, dass Bilder gemeinsame Inhaltsinformationen (z. B. Pose) aufweisen, aber jeweils eigene, domänen-spezifische Merkmale besitzen, die als „Stil“ bezeichnet werden. Bei Bedingung durch ein Zielbild zielen solche Methoden darauf ab, den Stil des Zielbildes zu extrahieren und ihn mit dem Inhalt des Quellbildes zu kombinieren. In dieser Arbeit betrachten wir den Fall, dass das Zielbild eine sehr geringe Auflösung aufweist. Genauer gesagt zielt unser Ansatz darauf ab, feine Details aus einem hochauflösenden (HR) Quellbild so auf eine grobe, niederauflösende (LR) Darstellung des Zielbildes zu übertragen, dass die resultierenden HR-Bilder Merkmale sowohl aus dem HR- als auch aus dem LR-Eingabebild beinhalten. Dies unterscheidet sich von früheren Ansätzen, die darauf abzielen, einen gegebenen Bildstil in eine Zielstruktur zu übersetzen. Unser Übersetzungsansatz ist in der Lage, den Stil gleichzeitig zu imitieren und die strukturellen Informationen des LR-Zielbildes zu integrieren. Unser Verfahren basiert auf der Ausbildung eines generativen Modells, um HR-Zielbilder zu erzeugen, die 1) charakteristische Informationen des zugehörigen Quellbildes aufweisen und 2) beim Herunterskalieren korrekt mit dem LR-Zielbild übereinstimmen. Wir validieren unsere Methode anhand der Datensätze CelebA-HQ und AFHQ und zeigen Verbesserungen hinsichtlich visueller Qualität, Vielfalt und Abdeckung. Qualitative und quantitative Ergebnisse belegen, dass unser Ansatz bei der intra-domänischen Bildübersetzung im Vergleich zu state-of-the-art-Methoden wie Stargan-v2 realistischere Ergebnisse erzeugt.