HyperAIHyperAI
il y a 2 mois

Synthèse vidéo à partir de quelques exemples

Ting-Chun Wang; Ming-Yu Liu; Andrew Tao; Guilin Liu; Jan Kautz; Bryan Catanzaro
Synthèse vidéo à partir de quelques exemples
Résumé

La synthèse vidéo-vidéo (vid2vid) vise à convertir une vidéo sémantique d'entrée, telle que des vidéos de poses humaines ou de masques de segmentation, en une vidéo photoréaliste de sortie. Bien que l'état de l'art en vid2vid ait considérablement progressé, les approches existantes partagent deux limitations majeures. Premièrement, elles sont gourmandes en données. Un grand nombre d'images d'un sujet humain cible ou d'une scène est nécessaire pour l'entraînement. Deuxièmement, un modèle appris possède une capacité de généralisation limitée. Un modèle vid2vid de pose à humain ne peut synthétiser que les poses de la seule personne présente dans l'ensemble d'entraînement. Il ne généralise pas aux autres humains qui n'y figurent pas.Pour surmonter ces limitations, nous proposons un cadre de synthèse vidéo-vidéo par apprentissage à partir de quelques exemples (few-shot vid2vid), qui apprend à synthétiser des vidéos de sujets ou scènes inédits en utilisant peu d'images exemplaires du sujet cible au moment du test. Notre modèle atteint cette capacité de généralisation par apprentissage à partir de quelques exemples grâce à un module innovant de génération des poids du réseau utilisant un mécanisme d'attention. Nous menons des validations expérimentales approfondies avec des comparaisons à des baselines robustes en utilisant plusieurs jeux de données vidéo à grande échelle, notamment des vidéos de danse humaine, des vidéos tête parlante et des vidéos de scènes urbaines.Les résultats expérimentaux confirment l'efficacité du cadre proposé pour résoudre les deux limitations des approches actuelles en vid2vid.

Synthèse vidéo à partir de quelques exemples | Articles de recherche récents | HyperAI