Video Frame Interpolation mit Transformer

Video Frame Interpolation (VFI), die darauf abzielt, Zwischenframes eines Videos zu synthetisieren, hat in den letzten Jahren mit der Entwicklung tiefer Faltungsnetzwerke erhebliche Fortschritte gemacht. Bestehende Methoden, die auf Faltungsnetzwerken basieren, stoßen generell auf Schwierigkeiten bei der Bewältigung großer Bewegungen, da die Lokalität der Faltungsoperationen eine Beschränkung darstellt. Um diese Einschränkung zu überwinden, stellen wir einen neuartigen Rahmen vor, der den Transformer nutzt, um langreichweitige Pixelkorrelationen zwischen Videoframes zu modellieren. Zudem ist unser Netzwerk mit einem innovativen, querskaligen Fenster-basierten Aufmerksamkeitsmechanismus ausgestattet, bei dem querskalige Fenster miteinander interagieren. Diese Architektur vergrößert effektiv den Empfindungsfeldbereich und aggregiert Informationen aus mehreren Skalen. Umfangreiche quantitative und qualitative Experimente zeigen, dass unsere Methode auf verschiedenen Benchmarks neue SOTA-Ergebnisse erzielt.