Command Palette
Search for a command to run...
HuMo : Génération vidéo centrée sur l’humain par conditionnement multi-modale collaboratif
HuMo : Génération vidéo centrée sur l’humain par conditionnement multi-modale collaboratif
Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu
Résumé
Les méthodes de génération vidéo centrée sur l’humain (HCVG) visent à synthétiser des vidéos d’humains à partir d’entrées multimodales, incluant le texte, les images et l’audio. Les approches existantes peinent à coordonner efficacement ces modalités hétérogènes en raison de deux défis majeurs : le manque de données d’entraînement comprenant des triplets appariés (texte, image de référence, audio) et la difficulté d’assurer la collaboration entre les sous-tâches de préservation du sujet et d’alignement audio-visuel en présence d’entrées multimodales. Dans ce travail, nous proposons HuMo, un cadre unifié pour la génération vidéo centrée sur l’humain avec contrôle collaboratif multimodal. Pour le premier défi, nous construisons un jeu de données de haute qualité, diversifié et composé de triplets appariés de texte, d’images de référence et d’audio. Pour le second défi, nous introduisons un paradigme d’entraînement progressif en deux étapes, accompagné de stratégies spécifiques à chaque tâche. Pour la tâche de préservation du sujet, afin de préserver les capacités de suivi des instructions et de génération visuelle du modèle fondamental, nous adoptons une stratégie d’injection d’image à faible intrusivité. Pour la tâche d’alignement audio-visuel, en plus de la couche d’attention croisée audio couramment utilisée, nous proposons une stratégie de « focus-by-predicting » qui guide implicitement le modèle à associer l’audio aux régions faciales. Pour l’apprentissage conjoint des contraintes de contrôle à travers les entrées multimodales, en s’appuyant sur les capacités acquises précédemment, nous intégrons progressivement la tâche d’alignement audio-visuel. Lors de l’inférence, pour permettre un contrôle multimodal souple et granulaire, nous concevons une stratégie d’orientation sans classificateur adaptative dans le temps, qui ajuste dynamiquement les poids d’orientation au cours des étapes de débruitage. Des résultats expérimentaux étendus démontrent que HuMo surpasse les méthodes spécialisées de pointe dans chaque sous-tâche, établissant ainsi un cadre unifié pour la génération vidéo centrée sur l’humain avec contrôle collaboratif multimodal. Page du projet : https://phantom-video.github.io/HuMo.