AdaAttN: Revisit der Aufmerksamkeitsmechanismen in der beliebigen neuronalen Stilübertragung

Schnelle, nahezu beliebige neuronale Stilvermittlung hat aufgrund ihrer Flexibilität in der Ermöglichung verschiedener Anwendungen weit verbreitete Aufmerksamkeit von akademischen, industriellen und künstlerischen Kreisen gefunden. Bestehende Lösungen fügen entweder tiefgreifende Stilmerkmale in tiefgreifende Inhaltsmerkmale ein, ohne die Merkmalsverteilungen zu berücksichtigen, oder normalisieren tiefgreifende Inhaltsmerkmale anpassungsfähig nach dem Stil, sodass ihre globalen Statistiken übereinstimmen. Obwohl effektiv, neigen diese Ansätze dazu, aufgrund der Vernachlässigung flacher Merkmale und der fehlenden lokalen Berücksichtigung von Merkmalsstatistiken zu unnatürlichen Ausgaben mit unangenehmen lokalen Verzerrungen. Um dieses Problem zu lindern, schlagen wir in dieser Arbeit ein neuartiges Aufmerksamkeits- und Normalisierungsmodul vor, das als Adaptive Attention Normalization (AdaAttN) bezeichnet wird, um eine punktweise adaptive Normalisierung durchzuführen. Insbesondere wird ein räumlicher Aufmerksamkeitswert sowohl aus den flachen als auch aus den tiefen Merkmalen von Inhalt- und Stilbildern gelernt. Anschließend werden punktweise gewichtete Statistiken berechnet, indem ein Stilmerkmal als Verteilung des aufmerksamkeitsgewichteten Outputs aller Stilmerkmale betrachtet wird. Schließlich werden die Inhaltsmerkmale so normalisiert, dass sie die gleichen lokalen Merkmalsstatistiken wie die berechneten punktweise gewichteten Stilmerkmalsstatistiken aufweisen. Darüber hinaus wird ein neuartiger lokaler Merkmalverlust basierend auf AdaAttN abgeleitet, um die lokale visuelle Qualität zu verbessern. Wir erweitern AdaAttN zudem leicht modifiziert für die Video-Stilvermittlung. Experimente zeigen, dass unsere Methode den aktuellen Stand der Technik bei der nahezu beliebigen Bild-/Videostilvermittlung erreicht. Der Quellcode und die Modelle sind verfügbar.