RSTT: Echtzeit-Raum-Zeit-Transformer für Raum-Zeit-Videosuperauflösung

Die Aufgabe der räumlich-zeitlichen Videosuperauflösung (STVSR) besteht darin, Videos mit sowohl niedriger Framerate (LFR) als auch niedriger Auflösung (LR) zu interpolieren, um hochauflösende (HR) und hochfrequentige (HFR) Entsprechungen zu erzeugen. Bestehende Methoden auf Basis von Faltungsneuronalen Netzen (CNN) gelangen zwar zu visuell zufriedenstellenden Ergebnissen, leiden jedoch aufgrund ihrer komplexen Architekturen an langsamen Inferenzgeschwindigkeiten. Wir schlagen vor, dieses Problem durch die Verwendung eines räumlich-zeitlichen Transformers zu lösen, der die räumliche und zeitliche Superauflösungsmodulierung in ein einziges Modell integriert. Im Gegensatz zu CNN-basierten Methoden verwenden wir keine explizit getrennten Bausteine für die zeitliche Interpolation und die räumliche Superauflösung; stattdessen setzen wir nur eine einzige end-to-end Transformer-Architektur ein. Insbesondere wird ein wiederverwendbares Wörterbuch von den Encodern basierend auf den Eingangsframes mit niedriger Framerate und niedriger Auflösung erstellt, das dann im Decoder-Teil zur Synthese der Frames mit hoher Framerate und hoher Auflösung genutzt wird. Im Vergleich zum aktuellen Stand der Technik TMNet \cite{xu2021temporal} ist unser Netzwerk 60 % kleiner (4,5 Mio. gegenüber 12,3 Mio. Parameter) und 80 % schneller (26,2 fps gegenüber 14,3 fps bei Frames der Größe $720\times576$), ohne dabei wesentlich an Leistung einzubüßen. Der Quellcode ist unter https://github.com/llmpass/RSTT verfügbar.