Video Super-Resolution Transformer mit maskierter Inter- und Intra-Bild-Attention

Kürzlich hat der Vision Transformer erhebliche Fortschritte bei der Wiederherstellung fehlender Details in niedrigauflösenden Sequenzen erzielt, beispielsweise im Rahmen der Video-Super-Resolution (VSR)-Aufgabe. Trotz seiner überlegenen Genauigkeit bei VSR stellt die hohe Rechenlast sowie der große Speicherverbrauch eine Herausforderung für die Implementierung von Transformer-basierten VSR-Modellen auf ressourcenbeschränkten Geräten dar. In diesem Artikel adressieren wir dieses Problem durch die Einführung eines neuen feature-basierten maskierten Verarbeitungsrahmens: VSR mit maskiertem intra- und inter-frame Attention (MIA-VSR). Der Kern von MIA-VSR besteht darin, die zeitliche Kontinuität auf Feature-Ebene zwischen benachbarten Frames auszunutzen, um redundante Berechnungen zu reduzieren und die bereits verbesserten hochauflösenden Features effizienter zu nutzen. Konkret stellen wir einen intra-frame- und inter-frame-Attention-Block vor, der die jeweilige Rolle von vorherigen Features und Eingabefeatures berücksichtigt und lediglich die bereits verbesserten Features zur Bereitstellung zusätzlicher Informationen nutzt. Zudem wurde ein adaptiver blockweiser Masken-Vorhersagemodul entwickelt, das unerhebliche Berechnungen aufgrund der Merkmalsähnlichkeit zwischen benachbarten Frames überspringt. Wir führen detaillierte Ablationsstudien durch, um unsere Beiträge zu validieren, und vergleichen die vorgeschlagene Methode mit aktuellen state-of-the-art Ansätzen für VSR. Die experimentellen Ergebnisse zeigen, dass MIA-VSR die Speicher- und Recheneffizienz gegenüber bestehenden state-of-the-art-Methoden verbessert, ohne die PSNR-Genauigkeit einzubüßen. Der Quellcode ist unter https://github.com/LabShuHangGU/MIA-VSR verfügbar.