HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 2 jours

Soul : Donner vie à une humanité numérique pour une animation multimodale de haute fidélité à long terme

Soul : Donner vie à une humanité numérique pour une animation multimodale de haute fidélité à long terme

Résumé

Nous proposons un cadre piloté par multimodalité pour l'animation de personnages numériques à haute fidélité sur de longues durées, nommé Soul, qui génère des vidéos sémantiquement cohérentes à partir d'une seule image de portrait, de promts textuels et d'audio, atteignant une synchronisation labiale précise, des expressions faciales vivantes et une conservation robuste de l'identité. Nous avons construit Soul-1M, comprenant 1 million d'échantillons soigneusement annotés, grâce à un pipeline d'annotation automatisée précise (couvrant des scènes de portrait, de corps entier, de buste et de scènes à plusieurs personnes), afin de pallier le manque de données, et nous avons soigneusement conçu Soul-Bench pour une évaluation complète et équitable des méthodes d'animation guidées par l'audio ou le texte. Le modèle repose sur le noyau Wan2.2-5B, intégrant des couches d'injection audio et plusieurs stratégies d'entraînement, combinées à un remplacement du codebook sensible au seuil, afin d'assurer la cohérence de la génération à long terme. Par ailleurs, la distillation par étape et par CFG, ainsi qu'une VAE légère, sont utilisées pour optimiser l'efficacité de l'inférence, permettant une accélération de 11,4 fois avec une perte de qualité négligeable. Des expériences étendues montrent que Soul surpasser significativement les modèles open-source et commerciaux actuels en termes de qualité vidéo, d'alignement vidéo-texte, de conservation de l'identité et de précision de la synchronisation labiale, démontrant ainsi son large potentiel d'application dans des scénarios du monde réel, tels que les animateurs virtuels ou la production cinématographique.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.

Co-codage avec IA
GPU prêts à l'emploi
Meilleurs prix

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Soul : Donner vie à une humanité numérique pour une animation multimodale de haute fidélité à long terme | Articles de recherche | HyperAI