VFIMamba : Interpolation de Cadres Vidéo avec des Modèles d'États Spatiaux

La modélisation inter-images est cruciale pour la génération d'images intermédiaires dans l'interpolation de cadres vidéo (VFI). Les approches actuelles reposent principalement sur des modèles basés sur la convolution ou l'attention, qui souffrent souvent soit d'un champ récepteur insuffisant, soit d'un coût computationnel important. Récemment, les Modèles d'Espaces d'États Sélectifs (S6) ont émergé, spécifiquement conçus pour la modélisation de séquences longues, offrant à la fois une complexité linéaire et des capacités de modélisation dépendantes des données. Dans cet article, nous proposons VFIMamba, une nouvelle méthode d'interpolation de cadres visant une modélisation inter-images efficace et dynamique en utilisant le modèle S6. Notre approche introduit le Bloc Mixte-SSM (MSB), qui réorganise initialement les jetons des images adjacentes de manière entrelacée avant d'appliquer une modélisation S6 multidirectionnelle. Cette conception facilite le transfert efficace d'informations entre les images tout en maintenant une complexité linéaire. De plus, nous présentons une nouvelle stratégie d'apprentissage par curriculum qui développe progressivement la compétence en modélisation des dynamiques inter-images à travers différentes amplitudes de mouvement, exploitant pleinement le potentiel du modèle S6. Les résultats expérimentaux montrent que notre méthode atteint des performances de pointe sur divers benchmarks, particulièrement en scénarios haute résolution. En particulier, sur l'ensemble de données X-TEST, VFIMamba affiche une amélioration notable de 0,80 dB pour les images 4K et de 0,96 dB pour les images 2K.