Extraction de mouvement et d’apparence par une attention inter-images pour une interpolation efficace des cadres vidéo

L’extraction efficace des informations de mouvement et d’apparence entre cadres est essentielle pour l’interpolation de cadres vidéo (VFI). Les travaux antérieurs extraient généralement ces deux types d’informations de manière combinée, ou mettent en place des modules distincts pour chacun, ce qui entraîne une ambiguïté dans la représentation et une faible efficacité. Dans cet article, nous proposons un nouveau module permettant d’extraire explicitement les informations de mouvement et d’apparence via une opération unificatrice. Plus précisément, nous repensons le processus d’information dans l’attention entre cadres et réutilisons la carte d’attention ainsi obtenue à la fois pour améliorer les caractéristiques d’apparence et extraire les informations de mouvement. En outre, pour assurer une VFI efficace, notre module peut être intégré de manière transparente dans une architecture hybride combinant CNN et Transformer. Ce pipeline hybride permet de réduire la complexité computationnelle de l’attention entre cadres tout en préservant les détails des informations de bas niveau. Les résultats expérimentaux montrent que notre méthode atteint des performances de pointe sur diverses bases de données, tant pour l’interpolation à pas fixe que pour l’interpolation à pas arbitraire. Par ailleurs, notre approche présente un surcroît computationnel plus léger par rapport aux modèles offrant des performances comparables. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/MCG-NJU/EMA-VFI.