HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 2 Tagen

Soul: Leben in digitale Menschen für hochauflösende, langfristige multimodale Animation einhauchen

Soul: Leben in digitale Menschen für hochauflösende, langfristige multimodale Animation einhauchen

Abstract

Wir stellen einen multimodalen Ansatz für die hochauflösende Langzeit-Animation digitaler Menschen vor, der unter dem Namen Soul bekannt ist. Das System generiert semantisch kohärente Videos aus einer einzigen Porträtfotografie, Textprompten und Audiodaten und erreicht präzise Lippenbewegungssynchronisation, lebendige Gesichtsausdrücke sowie robuste Identitätsbewahrung. Zur Überwindung der Datenknappheit entwickeln wir Soul-1M, eine Datensammlung mit einer Million fein annotierter Beispiele, die mittels eines präzisen automatisierten Annotationssystems erstellt wurde (abgedeckt werden Porträts, Oberkörper-, Vollkörperszenen sowie Szenen mit mehreren Personen). Zudem erstellen wir Soul-Bench, eine umfassende und faire Bewertungsplattform zur Evaluierung audio- und textgesteuerter Animationsmethoden. Das Modell basiert auf der Wan2.2-5B-Architektur und integriert Audio-Injektionsschichten sowie mehrere Trainingsstrategien, kombiniert mit einem schwellenbewussten Codebook-Ersatz, um die Konsistenz der Langzeitgenerierung sicherzustellen. Gleichzeitig werden Schritt-/CFG-Distillation sowie ein leichtgewichtiges VAE eingesetzt, um die Inference-Effizienz zu optimieren und dabei eine 11,4-fache Beschleunigung bei vernachlässigbarem Qualitätsverlust zu erzielen. Ausführliche Experimente zeigen, dass Soul gegenwärtige führende Open-Source- und kommerzielle Modelle hinsichtlich Videoqualität, Video-Text-Alignment, Identitätsbewahrung und Genauigkeit der Lippenbewegungssynchronisation deutlich übertrifft und somit eine breite Anwendbarkeit in realen Szenarien wie virtuellen Nachrichtensprechern oder Filmproduktionen demonstriert.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-Co-Programmierung
Einsatzbereite GPUs
Bestpreis

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Soul: Leben in digitale Menschen für hochauflösende, langfristige multimodale Animation einhauchen | Forschungsarbeiten | HyperAI