INR-V : Un espace de représentation continu pour les tâches génératives basées sur la vidéo

La génération de vidéos constitue une tâche complexe, réalisée en produisant une suite d’images cohérentes dans le temps, une à une. Cette approche limite l’expressivité des vidéos à des opérations basées uniquement sur les images individuelles, nécessitant des architectures de réseau spécifiques pour assurer une cohérence temporelle des trajectoires dans l’espace d’image sous-jacent. Nous proposons INR-V, un réseau de représentation vidéo qui apprend un espace continu dédié aux tâches génératives basées sur les vidéos. INR-V paramétrise les vidéos à l’aide de représentations neuronales implicites (INRs), c’est-à-dire un perceptron multicouche capable de prédire une valeur RGB pour chaque position de pixel d’entrée dans la vidéo. L’INR est lui-même prédit par un méta-réseau, une hyperréseau entraîné sur des représentations neuronales issues de plusieurs instances vidéo. Une fois entraîné, ce méta-réseau peut être échantillonné pour générer des vidéos novatrices et diversifiées, ouvrant ainsi la voie à de nombreuses tâches génératives basées sur les vidéos. De manière intéressante, nous observons que la régularisation conditionnelle et l’initialisation progressive des poids jouent un rôle crucial dans l’obtention d’un modèle INR-V performant. L’espace de représentation appris par INR-V est plus expressif qu’un espace d’image classique, présentant de nombreuses propriétés remarquables impossibles avec les approches existantes. Par exemple, INR-V permet une interpolation fluide de vidéos intermédiaires entre des instances vidéo connues (comme des identités, expressions ou postures intermédiaires dans des vidéos de visages). Il peut également effectuer une reconstruction (inpainting) de parties manquantes dans une vidéo afin de restaurer une vidéo complète et cohérente dans le temps. Dans ce travail, nous évaluons l’espace appris par INR-V sur diverses tâches génératives — interpolation vidéo, génération de vidéos nouvelles, inversion vidéo, et inpainting vidéo — en comparaison avec des méthodes de référence. INR-V surpasse significativement les méthodes de référence sur plusieurs de ces tâches, mettant clairement en évidence le potentiel du représentation proposée.