Command Palette
Search for a command to run...
MIDAS : synthèse multimodale interactive d'humains numériques par génération vidéo autoregressive en temps réel
Ming Chen Liyuan Cui Wenyuan Zhang Haoxian Zhang Yan Zhou Xiaohan Li Xiaoqiang Liu Pengfei Wan

Résumé
Récemment, la génération vidéo d’humains numériques interactifs a suscité un intérêt croissant et connu des progrès remarquables. Toutefois, la mise en place d’un système pratique permettant une interaction en temps réel avec divers types de signaux d’entrée reste un défi pour les méthodes actuelles, qui peinent souvent à cause d’un latence élevée, d’un coût computationnel important et d’une maîtrise limitée. Dans ce travail, nous proposons un cadre de génération vidéo autoregressive permettant une commande multimodale interactive et une extrapolation à faible latence en mode flux. En n’apportant que des modifications minimales à un modèle de langage massif (LLM) standard, notre cadre accepte des encodages conditionnels multimodaux comprenant l’audio, la posture et le texte, et produit des représentations spatialement et sémantiquement cohérentes afin de guider le processus de débruitage d’un module de diffusion. Pour soutenir cette approche, nous avons construit un grand jeu de données de dialogues d’environ 20 000 heures issu de plusieurs sources, offrant une diversité riche de scénarios conversationnels pour l’entraînement. Nous introduisons également un autoencodeur à compression profonde permettant un ratio de réduction allant jusqu’à 64, ce qui allège efficacement la charge d’inférence à long terme inhérente au modèle autoregressif. Des expériences étendues sur la conversation duplex, la synthèse humaine multilingue et le modèle interactif du monde mettent en évidence les avantages de notre approche en termes de faible latence, d’efficacité élevée et de contrôle multimodal finement granulé.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.