Command Palette
Search for a command to run...
Kling-Avatar: Grundlagen multimodaler Anweisungen für die kaskadierte Synthese langdauernder Avatar-Animationen
Kling-Avatar: Grundlagen multimodaler Anweisungen für die kaskadierte Synthese langdauernder Avatar-Animationen
Zusammenfassung
Neuere Fortschritte in der audiogetriebenen Generierung von Avatar-Videos haben die audiovisuelle Realitätsnähe erheblich verbessert. Allerdings betrachten bestehende Methoden die Anweisungsbedingung lediglich als eine niedrigstufige Verfolgung, die durch akustische oder visuelle Signale gesteuert wird, ohne den kommunikativen Zweck zu erfassen, der in den Anweisungen vermittelt wird. Diese Einschränkung beeinträchtigt die narrative Kohärenz und die Ausdruckskraft der Charaktere. Um diese Lücke zu schließen, stellen wir Kling-Avatar vor – einen neuartigen, kaskadenartigen Rahmen, der die multimodale Anweisungsverstehens mit der Erzeugung photorealistischer Porträts vereint. Unser Ansatz folgt einer zweistufigen Pipeline. Im ersten Schritt entwerfen wir einen multimodalen großen Sprachmodell-Regisseur (MLLM), der ein „Blueprint-Video“ unter Berücksichtigung vielfältiger Anweisungssignale erzeugt und damit hochwertige Semantik wie Charakterbewegungen und Emotionen steuert. Im zweiten Schritt generieren wir mithilfe einer First-Last-Frame-Strategie mehrere Unterclips parallel, geleitet von den Schlüsselbildern des Blueprint. Dieser global-zu-lokal strukturierte Ansatz bewahrt feinste Details und vermittelt gleichzeitig treu die hochwertigen Intentionen hinter multimodalen Anweisungen. Zudem ermöglicht unsere parallele Architektur eine schnelle und stabile Erzeugung langer Videoausschnitte, was sie für reale Anwendungen wie digitale Menschen in Livestreams oder Vlogs besonders geeignet macht. Um unsere Methode umfassend zu evaluieren, haben wir eine Benchmark mit 375 sorgfältig ausgewählten Beispielen erstellt, die eine Vielzahl an Anweisungen und anspruchsvolle Szenarien abdecken. Umfangreiche Experimente zeigen, dass Kling-Avatar lebendige, flüssige, langdauernde Videos in bis zu 1080p und 48 fps erzeugen kann und hervorragende Leistung bei der Lippen-Synchronisationsgenauigkeit, der emotionalen und dynamischen Ausdruckskraft, der Anweisungssteuerbarkeit, der Identitätsbewahrung sowie der generalisierbaren Leistung über Domänen hinweg erzielt. Diese Ergebnisse etablieren Kling-Avatar als neuen Standard für semantisch fundierte, hochfidele, audiogetriebene Avatar-Synthese.