Command Palette
Search for a command to run...
Génération, prédiction et complétion vidéo profondes de séquences d'actions humaines
Génération, prédiction et complétion vidéo profondes de séquences d'actions humaines
Cai Haoye Bai Chunyan Tai Yu-Wing Tang Chi-Keung
Résumé
Les résultats actuels en apprentissage profond pour la génération de vidéos sont limités, tandis que les travaux sur la prédiction vidéo restent rares et qu’aucun résultat significatif n’a été obtenu pour la complétion vidéo. Cette situation s’explique par la nature fortement mal posée de ces trois problèmes. Dans cet article, nous nous concentrons sur les vidéos d’actions humaines et proposons un cadre profond général en deux étapes pour générer des vidéos d’actions humaines, sans contrainte ou avec un nombre arbitraire de contraintes, abordant de manière unifiée les trois problèmes suivants : génération vidéo sans cadre d’entrée, prédiction vidéo à partir des premiers cadres, et complétion vidéo à partir des premiers et derniers cadres. Pour rendre le problème abordable, dans la première étape, nous entraînons un modèle génératif profond capable de produire une séquence de postures humaines à partir de bruit aléatoire. Dans une deuxième étape, nous entraînons un réseau de transformation squelette-image, qui permet de générer une vidéo d’action humaine à partir de la séquence complète de postures humaines obtenue à la première étape. Grâce à cette stratégie en deux étapes, nous contournons les problèmes initialement mal posés tout en produisant pour la première fois des résultats de haute qualité en génération, prédiction et complétion vidéo sur des durées beaucoup plus longues. Nous présentons une évaluation quantitative et qualitative démontrant que notre approche en deux étapes surpasser les méthodes de pointe dans les tâches de génération vidéo, de prédiction vidéo et de complétion vidéo. Une démonstration des résultats vidéo est disponible à l’adresse suivante : https://iamacewhite.github.io/supp/index.html