HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Kling-Avatar : Fondement des instructions multimodales pour la synthèse en cascade d'animations d'avatar à longue durée

Kling-Avatar : Fondement des instructions multimodales pour la synthèse en cascade d'animations d'avatar à longue durée

Résumé

Les progrès récents dans la génération de vidéos d’avatars pilotés par le son ont considérablement amélioré la réalisme audiovisuel. Toutefois, les méthodes existantes traitent la conditionnalité par instruction uniquement comme une traçabilité de bas niveau pilotée par des indices acoustiques ou visuels, sans modéliser le but communicationnel véhiculé par les instructions. Cette limitation nuit à la cohérence narrative et à l’expressivité des personnages. Pour combler ce manque, nous introduisons Kling-Avatar, un cadre innovant en cascade qui unifie la compréhension multimodale des instructions avec la génération de portraits photoréalistes. Notre approche repose sur une architecture en deux étapes. Dans la première étape, nous concevons un directeur basé sur un grand modèle linguistique multimodal (MLLM), qui produit une vidéo « plan » conditionnée par divers signaux d’instruction, permettant ainsi de contrôler les sémantiques de haut niveau telles que les mouvements du personnage et les émotions. Dans la deuxième étape, guidée par des images-clés du plan, nous générons en parallèle plusieurs sous-segments à l’aide d’une stratégie « première-dernière image ». Ce cadre global-local préserve les détails fins tout en fidèlement encodant l’intention de haut niveau sous-jacente aux instructions multimodales. Notre architecture parallèle permet également une génération rapide et stable de vidéos longues, rendant notre méthode adaptée à des applications réelles telles que les directes numériques de personnages virtuels ou les vlogs. Pour évaluer de manière exhaustive notre méthode, nous avons constitué un benchmark comprenant 375 échantillons soigneusement sélectionnés, couvrant une diversité d’instructions et de scénarios complexes. Des expériences étendues montrent que Kling-Avatar est capable de générer des vidéos vivantes, fluides et de longue durée à une résolution allant jusqu’à 1080p et à 48 fps, atteignant des performances supérieures en synchronisation labiale, en expressivité émotionnelle et dynamique, en contrôle par instruction, en préservation de l’identité et en généralisation inter-domaines. Ces résultats établissent Kling-Avatar comme une nouvelle référence pour la synthèse d’avatars pilotés par le son, fondée sémantiquement et de haute fidélité.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Kling-Avatar : Fondement des instructions multimodales pour la synthèse en cascade d'animations d'avatar à longue durée | Articles de recherche | HyperAI