XVerse: Konsistente Mehrfach-Subjekt-Steuung von Identität und semantischen Attributen durch DiT-Modulation

Die Erreichung feingranulärer Kontrolle über die Identität von Subjekten und semantische Attribute (Haltung, Stil, Beleuchtung) bei der Text-zu-Bild-Generierung, insbesondere für mehrere Subjekte, untergräbt oft die Bearbeitbarkeit und Kohärenz von Diffusionstransformatoren (DiTs). Viele Ansätze führen zu Artefakten oder leiden unter Attributverknotungen. Um diese Herausforderungen zu bewältigen, schlagen wir ein neues Modell zur multibetreuten Generierung vor: XVerse. Durch die Transformation von Referenzbildern in Offsetwerte für token-spezifische Textstrommodulation ermöglicht XVerse eine präzise und unabhängige Steuerung spezifischer Subjekte ohne die Bildlatente oder -merkmale zu stören. Folglich bietet XVerse hochauflösende, bearbeitbare Multibetreute Bildsynthese mit robuster Kontrolle über individuelle Subjektmerkmale und semantische Attribute. Dieser Fortschritt verbessert erheblich die Fähigkeiten zur personalisierten und komplexen Szeneriegenerierung.