Lernpfad-bewusster Transformer für Videosuperresolution

Video-Super-Resolution (VSR) zielt darauf ab, eine Folge von hochaufgelösten (HR) Bildern aus ihren niedrigaufgelösten (LR) Gegenstücken wiederherzustellen. Obwohl einige Fortschritte gemacht wurden, bestehen große Herausforderungen bei der effektiven Nutzung der zeitlichen Abhängigkeit in gesamten Videosequenzen. Bestehende Ansätze ordnen und aggregieren in der Regel Videobilder nur aus begrenzten benachbarten Frames (z.B. 5 oder 7 Frames), was diese Ansätze daran hindert, zufriedenstellende Ergebnisse zu erzielen. In dieser Arbeit gehen wir einen Schritt weiter, um effektives räumlich-zeitliches Lernen in Videos zu ermöglichen. Wir schlagen ein neuartiges trajektorienbewusstes Transformer-Modell für Video-Super-Resolution (TTVSR) vor. Insbesondere formulieren wir Videoframes in mehrere vorausalignierte Trajektorien, die sich aus kontinuierlichen visuellen Token zusammensetzen. Für ein Abfrage-Token wird die Selbst-Aufmerksamkeit nur auf relevante visuelle Token entlang räumlich-zeitlicher Trajektorien gelernt. Im Vergleich zu standardmäßigen Vision-Transformern führt dieses Design zu einer erheblichen Reduzierung des Rechenaufwands und ermöglicht es den Transformern, langreichweitige Merkmale zu modellieren. Wir schlagen außerdem ein Modul zur Kreuzskalen-Tokenisierung von Merkmalen vor, um Skaländerungsprobleme zu überwinden, die häufig in langreichweitigen Videos auftreten. Experimentelle Ergebnisse zeigen die Überlegenheit des vorgeschlagenen TTVSR gegenüber den besten bisher bekannten Modellen durch umfangreiche quantitative und qualitative Bewertungen an vier weit verbreiteten Benchmarks für Video-Super-Resolution. Der Quellcode und die vorab trainierten Modelle können unter https://github.com/researchmm/TTVSR heruntergeladen werden.