Command Palette
Search for a command to run...
LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung
LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung
Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu
Zusammenfassung
Die jüngsten Fortschritte bei Diffusionsmodellen haben die Text-zu-Video-Generierung erheblich verbessert und ermöglichen die Erstellung personalisierter Inhalte mit feinkörniger Kontrolle sowohl über Vorder- als auch Hintergrundelemente. Dennoch bleibt die präzise Ausrichtung von Gesichtsattributen über verschiedene Subjekte hinweg eine herausfordernde Aufgabe, da bestehende Methoden keine expliziten Mechanismen zur Gewährleistung der Intra-Gruppen-Konsistenz bieten. Die Schließung dieser Lücke erfordert sowohl explizite Modellierungsstrategien als auch datenbezogene Ressourcen, die Gesichtsattribute berücksichtigen. Wir stellen daher LumosX vor, ein Framework, das sowohl die Datenqualität als auch das Modelldesign vorantreibt. Auf der Datenseite orchestriert eine maßgeschneiderte Sammel-Pipeline Bildunterschriften und visuelle Hinweise aus unabhängigen Videos, während multimodale Large Language Models (MLLMs) subjetspezifische Abhängigkeiten inferieren und zuordnen. Diese extrahierten relationalen Priors erzwingen eine feinkörnigere Struktur, die den ausdrucksstarken Kontrollgrad bei der personalisierten Video-Generierung verstärkt und den Aufbau eines umfassenden Benchmarks ermöglicht. Auf der Modellseite verflechten Relational Self-Attention und Relational Cross-Attention positionsbewusste Embeddings mit verfeinerten Aufmerksamkeitsdynamiken, um explizite Subjekt-Attribut-Abhängigkeiten zu kodieren. Dies erzwingt eine disziplinierte Intra-Gruppen-Kohäsion und verstärkt die Trennung zwischen verschiedenen Subjekt-Clustern. Umfassende Evaluierungen auf unserem Benchmark belegen, dass LumosX State-of-the-Art-Ergebnisse bei der feinkörnigen, identitätskonsistenten und semantisch ausgerichteten personalisierten Multi-Subjekt-Video-Generierung erzielt. Code und Modelle sind unter https://jiazheng-xing.github.io/lumosx-home/ verfügbar.