Interpolation de trames vidéo bayésienne profonde

Résumé. Nous présentons une interpolation de trames vidéo bayésienne profonde, une nouvelle approche permettant de suréchantillonner temporellement une vidéo à faible taux d’images vers sa version à taux d’images plus élevé. Notre méthode apprend des distributions a posteriori des champs optiques et des trames à interpoler, optimisées par une descente de gradient apprise pour assurer une convergence rapide. Chaque étape apprise correspond à un réseau léger qui manipule les gradients du logarithme de la vraisemblance des trames et des champs estimés. Ces gradients, paramétrés de manière explicite ou implicite, modélisent la fidélité des estimations courantes lorsqu’elles sont ajustées aux distributions réelles d’images et de champs optiques, afin d’expliquer les observations d’entrée. Grâce à cette approche, nous établissons de nouveaux records sur 8 des 10 benchmarks, avec une architecture comportant la moitié du nombre de paramètres du modèle de l’état de l’art.