VFIMamba: Video Frame Interpolation mit Zustandsraummodellen

Das Inter-Frame-Modellierung ist entscheidend für die Generierung von Zwischenframes bei der Video-Frame-Interpolation (VFI). Aktuelle Ansätze basieren hauptsächlich auf Faltungs- oder Aufmerksamkeitsmodellen, die oft entweder nicht ausreichende Rezeptive Felder bieten oder erhebliche rechnerische Overheads mit sich bringen. Kürzlich sind selektive Zustandsraummodelle (S6) aufgetreten, die speziell für die Modellierung langer Sequenzen entwickelt wurden und sowohl lineare Komplexität als auch datenabhängige Modellierungsfähigkeiten bieten. In dieser Arbeit schlagen wir VFIMamba vor, eine neuartige Methode zur effizienten und dynamischen Inter-Frame-Modellierung durch den Einsatz des S6-Modells. Unser Ansatz führt den Mixed-SSM-Block (MSB) ein, der zunächst Tokens aus benachbarten Frames in einem verschachtelten Muster neu anordnet und anschließend multidirektionale S6-Modellierung anwendet. Diese Gestaltung ermöglicht die effiziente Informationsübertragung zwischen Frames, während sie gleichzeitig lineare Komplexität gewährleistet. Darüber hinaus stellen wir eine neue Curriculum-Lernstrategie vor, die schrittweise die Fähigkeit zur Modellierung von Inter-Framedynamiken bei unterschiedlichen Bewegungsbeträgen fördert und das volle Potenzial des S6-Modells ausschöpft. Experimentelle Ergebnisse zeigen, dass unsere Methode den Stand der Technik in verschiedenen Benchmarks erreicht und insbesondere in Hochauflösungsszenarien herausragt. Insbesondere demonstriert VFIMamba auf dem X-TEST-Datensatz eine bemerkenswerte Verbesserung von 0,80 dB für 4K-Frames und 0,96 dB für 2K-Frames.