Command Palette
Search for a command to run...
XVerse: Konsistente Mehrfach-Subjekt-Steuung von Identität und semantischen Attributen durch DiT-Modulation
XVerse: Konsistente Mehrfach-Subjekt-Steuung von Identität und semantischen Attributen durch DiT-Modulation
Bowen Chen Mengyi Zhao Haomiao Sun Li Chen Xu Wang Kang Du Xinglong Wu
Zusammenfassung
Die Erreichung feingranulärer Kontrolle über die Identität von Subjekten und semantische Attribute (Haltung, Stil, Beleuchtung) bei der Text-zu-Bild-Generierung, insbesondere für mehrere Subjekte, untergräbt oft die Bearbeitbarkeit und Kohärenz von Diffusionstransformatoren (DiTs). Viele Ansätze führen zu Artefakten oder leiden unter Attributverknotungen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neues Modell zur multibetreuten Generierung vor: XVerse. Durch die Transformation von Referenzbildern in Offsetwerte für token-spezifische Textstrommodulation ermöglicht XVerse eine präzise und unabhängige Steuerung spezifischer Subjekte ohne die Bildlatente oder -merkmale zu stören. Folglich bietet XVerse hochauflösende, bearbeitbare Multibetreute Bildsynthese mit robuster Kontrolle über individuelle Subjektmerkmale und semantische Attribute. Dieser Fortschritt verbessert erheblich die Fähigkeiten zur personalisierten und komplexen Szeneriegenerierung.