Interpolation de trames vidéo avec Transformer

L’interpolation de trames vidéo (VFI), dont l’objectif est de synthétiser des trames intermédiaires dans une séquence vidéo, a connu des progrès significatifs ces dernières années grâce au développement des réseaux de convolution profonds. Les méthodes existantes fondées sur les réseaux de convolution rencontrent généralement des difficultés à traiter des mouvements importants, en raison de la nature locale des opérations de convolution. Pour surmonter cette limitation, nous proposons un cadre novateur qui exploite les modèles Transformer afin de capturer les corrélations à longue portée entre les pixels d’une séquence vidéo. Par ailleurs, notre architecture intègre un mécanisme d’attention original basé sur des fenêtres multi-échelles, dans lequel les fenêtres d’échelles différentes interagissent entre elles. Cette conception permet efficacement d’élargir le champ réceptif et d’agréger des informations à plusieurs échelles. Des expérimentations quantitatives et qualitatives étendues démontrent que notre méthode atteint des résultats de pointe sur diverses bases de référence.