IFRNet : Réseau de raffinement des caractéristiques intermédiaires pour une interpolation de trames efficace

Les algorithmes courants d'interpolation de trames vidéo, qui génèrent des trames intermédiaires à partir d'entrées consécutives, reposent généralement sur des architectures de modèles complexes, dotées de nombreux paramètres ou d’un délai élevé, ce qui limite leur application dans diverses tâches en temps réel. Dans ce travail, nous proposons un réseau efficace basé sur une architecture encodeur-décodeur, nommé IFRNet, destiné à la synthèse rapide de trames intermédiaires. Il extrait d'abord des caractéristiques pyramidales à partir des entrées fournies, puis affine progressivement les champs de flux intermédiaires bilatéraux ainsi que les caractéristiques intermédiaires puissantes afin de produire la sortie souhaitée. La caractéristique intermédiaire affinée progressivement permet non seulement d’améliorer l’estimation du flux intermédiaire, mais aussi de compenser les détails contextuels, ce qui rend inutile l’ajout de modules supplémentaires de synthèse ou de raffinement. Pour exploiter pleinement son potentiel, nous introduisons également une nouvelle perte de distillation du flux optique orientée vers la tâche, afin de se concentrer sur l’apprentissage des connaissances utiles provenant d’un modèle enseignant pour la synthèse de trames. Par ailleurs, un nouveau terme de régularisation de cohérence géométrique est appliqué aux caractéristiques intermédiaires affinées progressivement afin de préserver une structure plus cohérente. Des expériences sur diverses bases de données démontrent les performances excellentes et la vitesse d’inférence rapide des approches proposées. Le code est disponible à l’adresse suivante : https://github.com/ltkong218/IFRNet.