vor 5 Stunden

Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu

Zusammenfassung

Die jüngsten Fortschritte bei Diffusionsmodellen haben die Text-zu-Video-Generierung erheblich verbessert und ermöglichen die Erstellung personalisierter Inhalte mit feinkörniger Kontrolle sowohl über Vorder- als auch Hintergrundelemente. Dennoch bleibt die präzise Ausrichtung von Gesichtsattributen über verschiedene Subjekte hinweg eine herausfordernde Aufgabe, da bestehende Methoden keine expliziten Mechanismen zur Gewährleistung der Intra-Gruppen-Konsistenz bieten. Die Schließung dieser Lücke erfordert sowohl explizite Modellierungsstrategien als auch datenbezogene Ressourcen, die Gesichtsattribute berücksichtigen. Wir stellen daher LumosX vor, ein Framework, das sowohl die Datenqualität als auch das Modelldesign vorantreibt. Auf der Datenseite orchestriert eine maßgeschneiderte Sammel-Pipeline Bildunterschriften und visuelle Hinweise aus unabhängigen Videos, während multimodale Large Language Models (MLLMs) subjetspezifische Abhängigkeiten inferieren und zuordnen. Diese extrahierten relationalen Priors erzwingen eine feinkörnigere Struktur, die den ausdrucksstarken Kontrollgrad bei der personalisierten Video-Generierung verstärkt und den Aufbau eines umfassenden Benchmarks ermöglicht. Auf der Modellseite verflechten Relational Self-Attention und Relational Cross-Attention positionsbewusste Embeddings mit verfeinerten Aufmerksamkeitsdynamiken, um explizite Subjekt-Attribut-Abhängigkeiten zu kodieren. Dies erzwingt eine disziplinierte Intra-Gruppen-Kohäsion und verstärkt die Trennung zwischen verschiedenen Subjekt-Clustern. Umfassende Evaluierungen auf unserem Benchmark belegen, dass LumosX State-of-the-Art-Ergebnisse bei der feinkörnigen, identitätskonsistenten und semantisch ausgerichteten personalisierten Multi-Subjekt-Video-Generierung erzielt. Code und Modelle sind unter https://jiazheng-xing.github.io/lumosx-home/ verfügbar.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Stunden

Text-zu-Video

Diffusionsmodell

Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Stunden

Text-zu-Video

Diffusionsmodell

Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung

Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung

Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

LumosX: Verknüpfung beliebiger Identitäten mit ihren Attributen für personalisierte Videogenerierung

Jiazheng Xing Fei Du Hangjie Yuan Pengwei Liu Hongbin Xu Hai Ci Ruigang Niu Weihua Chen Fan Wang Yong Liu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters