Soul : Donner vie à une humanité numérique pour une animation multimodale de haute fidélité à long terme
Soul : Donner vie à une humanité numérique pour une animation multimodale de haute fidélité à long terme

Résumé
Nous proposons un cadre piloté par multimodalité pour l'animation de personnages numériques à haute fidélité sur de longues durées, nommé Soul, qui génère des vidéos sémantiquement cohérentes à partir d'une seule image de portrait, de promts textuels et d'audio, atteignant une synchronisation labiale précise, des expressions faciales vivantes et une conservation robuste de l'identité. Nous avons construit Soul-1M, comprenant 1 million d'échantillons soigneusement annotés, grâce à un pipeline d'annotation automatisée précise (couvrant des scènes de portrait, de corps entier, de buste et de scènes à plusieurs personnes), afin de pallier le manque de données, et nous avons soigneusement conçu Soul-Bench pour une évaluation complète et équitable des méthodes d'animation guidées par l'audio ou le texte. Le modèle repose sur le noyau Wan2.2-5B, intégrant des couches d'injection audio et plusieurs stratégies d'entraînement, combinées à un remplacement du codebook sensible au seuil, afin d'assurer la cohérence de la génération à long terme. Par ailleurs, la distillation par étape et par CFG, ainsi qu'une VAE légère, sont utilisées pour optimiser l'efficacité de l'inférence, permettant une accélération de 11,4 fois avec une perte de qualité négligeable. Des expériences étendues montrent que Soul surpasser significativement les modèles open-source et commerciaux actuels en termes de qualité vidéo, d'alignement vidéo-texte, de conservation de l'identité et de précision de la synchronisation labiale, démontrant ainsi son large potentiel d'application dans des scénarios du monde réel, tels que les animateurs virtuels ou la production cinématographique.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.