Interpolation améliorée des trames vidéo basée sur l’appariement de corrélation

Nous proposons un nouveau cadre fondé sur les réseaux de neurones profonds, appelé Réseau d’interpolation de trames vidéo basé sur le couplage amélioré de corrélation, conçu pour supporter des vidéos en haute résolution telle que le 4K, caractérisées par de grands déplacements et des occlusions. En tenant compte de l’extensibilité du modèle réseau selon la résolution, l’approche proposée utilise une architecture pyramidale récurrente, dans laquelle les paramètres sont partagés entre chaque couche de la pyramide pour l’estimation du flux optique. Dans cette estimation de flux, les flux optiques sont récursivement affinés en suivant les positions associées à la corrélation maximale. Le couplage de corrélation basé sur le warpage avant permet d’améliorer la précision de la mise à jour du flux en éliminant les caractéristiques mal warpées autour des zones d’occlusion. À partir des flux bidirectionnels finaux, une trame intermédiaire à une position temporelle arbitraire est synthétisée à l’aide d’un réseau de warpage et de mélange, puis améliorée par un réseau de raffinement. Les résultats expérimentaux démontrent que la méthode proposée surpasser les approches antérieures sur des données vidéo 4K ainsi que sur des jeux de données de référence à basse résolution, en termes de qualité objective et subjective, tout en utilisant le plus petit nombre de paramètres du modèle.