Extraction efficace de caractéristiques pour l'interpolation de trames vidéo à haute résolution

La plupart des méthodes d’apprentissage profond pour l’interpolation de trames vidéo se composent de trois composants principaux : l’extraction de caractéristiques, l’estimation du mouvement et la synthèse d’image. Les approches existantes se distinguent principalement par la manière dont ces modules sont conçus. Toutefois, lors de l’interpolation d’images à haute résolution, par exemple en 4K, les choix architecturaux permettant d’atteindre une précision élevée tout en respectant des contraintes mémoire raisonnables sont limités. Les couches d’extraction de caractéristiques permettent de compresser l’entrée et d’extraire les informations pertinentes pour les étapes ultérieures, telles que l’estimation du mouvement. Néanmoins, ces couches sont souvent coûteuses en termes de paramètres, de temps de calcul et d’utilisation mémoire. Nous montrons comment des idées issues de la réduction de dimensionnalité, combinées à une optimisation légère, peuvent être utilisées pour compresser la représentation d’entrée tout en préservant les informations extraites nécessaires à l’interpolation de trames. En outre, notre méthode ne nécessite ni réseau préentraîné pour le flux optique, ni réseau de synthèse, ce qui réduit davantage le nombre de paramètres entraînables et la mémoire requise. Lors d’évaluations sur trois benchmarks en 4K, nous atteignons une qualité d’image de pointe parmi les méthodes n’utilisant pas de flux préentraîné, tout en présentant la complexité du réseau et les besoins en mémoire les plus faibles de l’ensemble des approches comparées.