HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

HuMo : Génération vidéo centrée sur l’humain par conditionnement collaboratif multi-modale

Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

HuMo : Génération vidéo centrée sur l’humain par conditionnement collaboratif multi-modale

Résumé

Les méthodes de génération vidéo centrées sur l’humain (HCVG) visent à synthétiser des vidéos d’humains à partir d’entrées multimodales, telles que le texte, les images et l’audio. Les approches existantes peinent à coordonner efficacement ces modalités hétérogènes en raison de deux défis : le manque de données d’entraînement comprenant des triplets appariés (texte, image de référence, audio), et la difficulté à orchestrer les sous-tâches de préservation du sujet et de synchronisation audio-visuelle avec des entrées multimodales. Dans ce travail, nous proposons HuMo, un cadre unifié pour la génération vidéo centrée sur l’humain avec contrôle multimodal collaboratif. Pour le premier défi, nous construisons un jeu de données de haute qualité, diversifié et comprenant des triplets appariés de texte, d’images de référence et d’audio. Pour le second défi, nous introduisons un paradigme d’entraînement progressif en deux étapes, doté de stratégies spécifiques à chaque tâche. Pour la tâche de préservation du sujet, afin de préserver les capacités de suivi des instructions et de génération visuelle du modèle fondamental, nous adoptons une stratégie d’injection d’image à faible intrusion. Pour la tâche de synchronisation audio-visuelle, en plus de la couche d’attention croisée audio couramment utilisée, nous proposons une stratégie « focus-by-predicting » qui guide implicitement le modèle à associer l’audio aux régions faciales. Pour l’apprentissage conjoint des contrôlabilités à travers les entrées multimodales, en s’appuyant sur les compétences préalablement acquises, nous intégrons progressivement la tâche de synchronisation audio-visuelle. Lors de l’inférence, afin d’assurer un contrôle multimodal souple et granulaire, nous concevons une stratégie de guidance libre de classificateur adaptative dans le temps, qui ajuste dynamiquement les poids de guidance au cours des étapes de débruitage. Des résultats expérimentaux étendus montrent que HuMo dépasse les méthodes spécialisées de pointe dans les sous-tâches, établissant ainsi un cadre unifié pour la génération vidéo centrée sur l’humain contrôlée de manière collaborative par des entrées multimodales. Page du projet : https://phantom-video.github.io/HuMo.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
HuMo : Génération vidéo centrée sur l’humain par conditionnement collaboratif multi-modale | Articles de recherche | HyperAI