HyperAIHyperAI

Command Palette

Search for a command to run...

LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung

Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu

Zusammenfassung

Die jüngsten Fortschritte bei Diffusionsmodellen haben die Text-zu-Video-Generierung erheblich verbessert und ermöglichen die Erstellung personalisierter Inhalte mit feinkörniger Kontrolle sowohl über Vorder- als auch Hintergrundelemente. Dennoch bleibt die präzise Ausrichtung von Gesichtsattributen über verschiedene Subjekte hinweg eine herausfordernde Aufgabe, da bestehende Methoden keine expliziten Mechanismen zur Gewährleistung der Intra-Gruppen-Konsistenz bieten. Die Schließung dieser Lücke erfordert sowohl explizite Modellierungsstrategien als auch datenbezogene Ressourcen, die Gesichtsattribute berücksichtigen. Wir stellen daher LumosX vor, ein Framework, das sowohl die Datenqualität als auch das Modelldesign vorantreibt. Auf der Datenseite orchestriert eine maßgeschneiderte Sammel-Pipeline Bildunterschriften und visuelle Hinweise aus unabhängigen Videos, während multimodale Large Language Models (MLLMs) subjetspezifische Abhängigkeiten inferieren und zuordnen. Diese extrahierten relationalen Priors erzwingen eine feinkörnigere Struktur, die den ausdrucksstarken Kontrollgrad bei der personalisierten Video-Generierung verstärkt und den Aufbau eines umfassenden Benchmarks ermöglicht. Auf der Modellseite verflechten Relational Self-Attention und Relational Cross-Attention positionsbewusste Embeddings mit verfeinerten Aufmerksamkeitsdynamiken, um explizite Subjekt-Attribut-Abhängigkeiten zu kodieren. Dies erzwingt eine disziplinierte Intra-Gruppen-Kohäsion und verstärkt die Trennung zwischen verschiedenen Subjekt-Clustern. Umfassende Evaluierungen auf unserem Benchmark belegen, dass LumosX State-of-the-Art-Ergebnisse bei der feinkörnigen, identitätskonsistenten und semantisch ausgerichteten personalisierten Multi-Subjekt-Video-Generierung erzielt. Code und Modelle sind unter https://jiazheng-xing.github.io/lumosx-home/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp