Command Palette
Search for a command to run...
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
Shaojin Wu Mengqi Huang Yufeng Cheng Wenxu Wu Jiahe Tian Yiming Luo Fei Ding Qian He
Zusammenfassung
Bisherige Literatur behandelt die stilbasierte und die themenbasierte Generierung typischerweise als zwei voneinander getrennte Aufgaben: Letztere legt den Fokus auf die Stilähnlichkeit, während ersteres die Themenkonsistenz betont, was zu einem offensichtlichen Widerspruch führt. Wir argumentieren, dass beide Ziele innerhalb eines einheitlichen Rahmens vereint werden können, da sie letztlich beide auf die Entkoppelung und Neukombination von Inhalt und Stil abzielen – ein zentrales Thema in der stilbasierten Forschung. Hierfür präsentieren wir USO, ein Unified Style-Subject Optimized Customization-Modell. Zunächst erstellen wir eine großskalige Dreiergruppen-Datenbank, bestehend aus Inhalt-Bildern, Stil-Bildern sowie deren entsprechenden stilisierten Inhalt-Bildern. Anschließend führen wir ein entkoppeltes Lernverfahren ein, das gleichzeitig Stilmerkmale ausrichtet und Inhalt von Stil durch zwei ergänzende Ziele – Stil-Ausrichtungstraining und Inhalt-Stil-Entkoppelungstraining – voneinander trennt. Drittens integrieren wir ein Stil-Belohnungs-Lernparadigma, bezeichnet als SRL (Style Reward Learning), um die Modellleistung weiter zu verbessern. Schließlich veröffentlichen wir USO-Bench, die erste Benchmark, die sowohl Stilähnlichkeit als auch Themenfidelität über mehrere Metriken gemeinsam bewertet. Umfangreiche Experimente zeigen, dass USO im Vergleich zu anderen Open-Source-Modellen hervorragende Ergebnisse sowohl in Bezug auf Themenkonsistenz als auch auf Stilähnlichkeit erzielt. Code und Modell: https://github.com/bytedance/USO