StyleFlow für content-feste Bild-zu-Bild-Übersetzung

Die Bild-zu-Bild-(I2I)-Übersetzung ist ein herausforderndes Thema in der Computer Vision. Wir gliedern dieses Problem in drei Aufgaben: stark eingeschränkte Übersetzung, normal eingeschränkte Übersetzung und schwach eingeschränkte Übersetzung. Die Einschränkung bezieht sich hier auf den Grad, in dem Inhalt oder semantische Informationen des ursprünglichen Bildes erhalten bleiben. Obwohl frühere Ansätze gute Leistungen bei schwach eingeschränkten Aufgaben erzielt haben, konnten sie den Inhalt in stark und normal eingeschränkten Aufgaben – einschließlich der Synthese von Foto-Realismus, Stilübertragung und Farbgebung – nicht vollständig bewahren. Um eine inhaltsbewahrende Übersetzung sowohl bei stark als auch bei normal eingeschränkten Aufgaben zu erreichen, schlagen wir StyleFlow vor, ein neues I2I-Übersetzungsmodell, das aus Normalisierungsflüssen und einem neuartigen Style-Aware Normalization (SAN)-Modul besteht. Durch die invertierbare Netzwerkstruktur projiziert StyleFlow Eingabebilder zunächst in einen tiefen Merkmalsraum (Vorwärtsdurchlauf), während der Rückwärtsdurchlauf das SAN-Modul nutzt, um eine inhaltsfixierte Merkmalstransformation durchzuführen, bevor die Merkmale wieder in den Bildraum zurückprojiziert werden. Unser Modell unterstützt sowohl bildgeführte Übersetzung als auch multimodale Synthese. Wir evaluieren unser Modell an mehreren I2I-Übersetzungsbenchmarks, und die Ergebnisse zeigen, dass das vorgeschlagene Modell gegenüber früheren Ansätzen sowohl bei stark eingeschränkten als auch bei normal eingeschränkten Aufgaben Vorteile aufweist.