Ein Style ist wert ein Code: Code-zu-Style-Bildgenerierung mit diskretem Style-Raum freischalten
Huijie Liu Shuhao Cui Haoxiang Cao Shuai Ma Kai Wu Guoliang Kang

Abstract
Innovative visuelle Stilisierung ist ein zentrales Element künstlerischer Schöpfung, doch die Erzeugung neuer und konsistenter visueller Stile bleibt eine erhebliche Herausforderung. Bestehende generative Ansätze stützen sich typischerweise auf lange Textprompts, Referenzbilder oder parameter-effizientes Fine-Tuning, um stilbewusste Bildgenerierung zu steuern. Diese Methoden leiden jedoch häufig unter mangelnder Stilkonsistenz, begrenzter Kreativität und komplexen Stilrepräsentationen. In diesem Artikel argumentieren wir, dass ein Stil einem numerischen Code wert ist, indem wir die neuartige Aufgabe „Code-zu-Stil-Bildgenerierung“ einführen, die Bilder mit neuen, konsistenten visuellen Stilen allein auf der Grundlage eines numerischen Stilcodes erzeugt. Bislang wurde dieses Feld vorwiegend von der Industrie (z. B. Midjourney) erforscht, während die akademische Gemeinschaft bisher keine offenen Quellcode-Beiträge dazu beigetragen hat. Um diese Lücke zu schließen, stellen wir CoTyle vor – die erste Open-Source-Methode für diese Aufgabe. Konkret trainieren wir zunächst aus einer Sammlung von Bildern einen diskreten Stilcodebuch, um Stilembeddings zu extrahieren. Diese Embeddings dienen als Bedingung für ein Text-zu-Bild-Diffusionsmodell (T2I-DM), um stilistische Bilder zu generieren. Anschließend trainieren wir einen autoregressiven Stilgenerator auf den diskreten Stilembeddings, um deren Verteilung zu modellieren und die Synthese neuer Stilembeddings zu ermöglichen. Während der Inferenz wird ein numerischer Stilcode durch den Stilgenerator auf ein eindeutiges Stilembedding abgebildet, das dann das T2I-DM zur Generierung von Bildern im entsprechenden Stil leitet. Im Gegensatz zu bestehenden Methoden bietet unsere Herangehensweise außergewöhnliche Einfachheit und Vielfalt und erschließt einen weiten Raum reproduzierbarer Stile aus minimaler Eingabe. Umfangreiche Experimente bestätigen, dass CoTyle effektiv einen numerischen Code in einen Stil-Controller verwandelt und somit belegt, dass ein Stil einem Code wert ist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.