StyTr2: Bildstilübertragung mit Transformers

Das Ziel der Bildstilübertragung besteht darin, ein Bild mit künstlerischen Merkmalen zu rendern, die durch eine Stilreferenz geleitet werden, während der ursprüngliche Inhalt beibehalten wird. Aufgrund der Lokalität in Faltungsneuralen Netzen (CNNs) ist die Extraktion und Erhaltung der globalen Informationen von Eingabebildern schwierig. Daher leiden herkömmliche Methoden der neuronalen Stilübertragung unter einer verzerrten Darstellung des Inhalts. Um dieses kritische Problem anzugehen, berücksichtigen wir in unserer vorgeschlagenen transformerbasierten Methode namens StyTr^2 die langfristigen Abhängigkeiten von Eingabebildern für die Stilübertragung. Im Gegensatz zu visuellen Transformers für andere Bildverarbeitungsaufgaben verfügt StyTr^2 über zwei unterschiedliche Transformer-Encoder, die jeweils domain-spezifische Sequenzen für Inhalt und Stil generieren. Anschließend wird ein mehrschichtiges Transformer-Decoder-Modul eingesetzt, um die Inhaltsequenz entsprechend der Stilsequenz zu stilisieren. Zudem analysieren wir die Schwächen bestehender Positions-Codierungsmethoden und schlagen die content-aware positional encoding (CAPE) vor, die skaleninvariant ist und besser für Aufgaben der Bildstilübertragung geeignet ist. Qualitative und quantitative Experimente belegen die Wirksamkeit von StyTr^2 im Vergleich zu aktuellen CNN-basierten und fluiddynamikbasierten Ansätzen. Der Quellcode und die Modelle sind unter https://github.com/diyiiyiii/StyTR-2 verfügbar.