CSD-VAR: Content-Style Zerlegung in visuellen autoregressiven Modellen

Die Trennung von Inhalt und Stil in einem einzelnen Bild, bekannt als Content-Style Decomposition (CSD), ermöglicht die Neukontextualisierung des extrahierten Inhalts und die Stilisierung der extrahierten Stile, was eine größere kreative Flexibilität bei der visuellen Synthese bietet. Obwohl aktuelle Personalisierungsverfahren die Zerlegung expliziter Inhaltsstile untersucht haben, sind sie weiterhin auf Diffusionsmodelle zugeschnitten. Gleichzeitig hat sich das Visual Autoregressive Modeling (VAR) als vielversprechende Alternative mit einem Paradigma der Vorhersage auf der nächsten Skala etabliert, wobei es Leistungen erzielt, die denen von Diffusionsmodellen vergleichbar sind. In dieser Arbeit untersuchen wir VAR als generatives Framework für CSD und nutzen dessen skalenbasierten Generierungsprozess zur Verbesserung der Entkopplung. Zu diesem Zweck schlagen wir CSD-VAR vor, eine neuartige Methode, die drei wesentliche Innovationen einführt: (1) eine skalenbewusste Wechselloptimierungsstrategie, die die Darstellung von Inhalt und Stil ihren jeweiligen Skalen zuordnet, um eine bessere Trennung zu erreichen; (2) eine SVD-basierte Korrekturmethode zur Verringerung des Inhaltslecks in die Stildarstellungen; und (3) ein erweitertes Key-Value-Gedächtnis (K-V-Gedächtnis), das die Erhaltung der Inhaltsidentität verbessert. Um diese Aufgabe zu bewerten, führen wir den Datensatz CSD-100 ein, der speziell für die Zerlegung von Inhalt und Stil entwickelt wurde und verschiedene Themen in unterschiedlichen künstlerischen Stilen darstellt. Experimente zeigen, dass CSD-VAR frühere Ansätze übertrifft und sowohl eine überlegene Inhalterhaltung als auch eine höhere Stilgenauigkeit erreicht.