VRT: Ein Video-Restaurierungs-Transformer

Die Video-Wiederherstellung (z. B. Video-Super-Resolution) hat das Ziel, hochwertige Frames aus niedrigen Frames wiederherzustellen. Im Gegensatz zur Wiederherstellung einzelner Bilder erfordert die Video-Wiederherstellung in der Regel die Nutzung zeitlicher Informationen aus mehreren benachbarten, aber oft fehlerhaft ausgerichteten Videoframes. Bestehende tiefen Methoden bewältigen dies in der Regel durch die Anwendung einer Rutschfensterstrategie oder einer rekurrenten Architektur, wobei entweder eine Frame-für-Frame-Wiederherstellung oder ein Mangel an langreichweitiger Modellierungsfähigkeit vorliegt. In dieser Arbeit schlagen wir einen Video-Restoration-Transformer (VRT) mit paralleler Frame-Vorhersage und Fähigkeiten zur Modellierung von langreichweitigen zeitlichen Abhängigkeiten vor. Genauer gesagt besteht VRT aus mehreren Skalen, von denen jede zwei Arten von Modulen umfasst: temporale gegenseitige Selbst-Aufmerksamkeit (TMSA) und paralleles Warping. TMSA unterteilt das Video in kleine Clips, auf denen gegenseitige Aufmerksamkeit für die gemeinsame Bewegungsschätzung, Feature-Ausrichtung und Feature-Fusion angewendet wird, während Selbst-Aufmerksamkeit für die Feature-Extraktion verwendet wird. Um inter-Clip-Interaktionen zu ermöglichen, wird die Videosequenz bei jeder anderen Schicht verschoben. Darüber hinaus wird paralleles Warping verwendet, um Informationen aus benachbarten Frames durch paralleles Feature-Warping weiter zu fusionieren. Experimentelle Ergebnisse zu fünf Aufgaben, einschließlich Video-Super-Resolution, Video-Dekunstverfahren (Deblurring), Video-Denoising, Video-Frame-Interpolation und Space-Time-Video-Super-Resolution, zeigen dass VRT auf vierzehn Benchmark-Datensätzen den Stand der Technik um erhebliche Margen ($\textbf{bis zu 2,16 dB}$) übertrifft.