Interpolation Vidéo Non Supervisée Utilisant la Consistance Cyclique

L'apprentissage de la synthèse de vidéos à haut taux d'images par interpolation nécessite de grandes quantités de vidéos d'entraînement à haut taux d'images, qui sont cependant rares, en particulier à haute résolution. Dans cet article, nous proposons des techniques non supervisées pour synthétiser directement des vidéos à haut taux d'images à partir de vidéos à bas taux d'images en utilisant la cohérence cyclique. Pour un triplet de cadres consécutifs, nous optimisons les modèles afin de minimiser l'écart entre le cadre central et sa reconstruction cyclique, obtenue par interpolation depuis les cadres intermédiaires interpolés. Cette contrainte non supervisée simple seule permet d'obtenir des résultats comparables à ceux obtenus avec une supervision utilisant les cadres intermédiaires véritables (ground truth). Nous introduisons également un terme de perte pseudo-supervisé qui impose aux cadres interpolés d'être cohérents avec les prédictions d'un modèle d'interpolation pré-entraîné. L'utilisation conjointe du terme de perte pseudo-supervisé et de la cohérence cyclique peut adapter efficacement un modèle pré-entraîné à un nouveau domaine cible. Sans données supplémentaires et de manière entièrement non supervisée, nos techniques améliorent considérablement les modèles pré-entraînés sur de nouveaux domaines cibles, augmentant les valeurs PSNR de 32,84 dB à 33,05 dB sur l'ensemble d'évaluation Slowflow et de 31,82 dB à 32,53 dB sur l'ensemble d'évaluation Sintel.