vor 14 Tagen

Video Super-Resolution Transformer mit maskierter Inter- und Intra-Bild-Attention

Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu

Abstract

Kürzlich hat der Vision Transformer erhebliche Fortschritte bei der Wiederherstellung fehlender Details in niedrigauflösenden Sequenzen erzielt, beispielsweise im Rahmen der Video-Super-Resolution (VSR)-Aufgabe. Trotz seiner überlegenen Genauigkeit bei VSR stellt die hohe Rechenlast sowie der große Speicherverbrauch eine Herausforderung für die Implementierung von Transformer-basierten VSR-Modellen auf ressourcenbeschränkten Geräten dar. In diesem Artikel adressieren wir dieses Problem durch die Einführung eines neuen feature-basierten maskierten Verarbeitungsrahmens: VSR mit maskiertem intra- und inter-frame Attention (MIA-VSR). Der Kern von MIA-VSR besteht darin, die zeitliche Kontinuität auf Feature-Ebene zwischen benachbarten Frames auszunutzen, um redundante Berechnungen zu reduzieren und die bereits verbesserten hochauflösenden Features effizienter zu nutzen. Konkret stellen wir einen intra-frame- und inter-frame-Attention-Block vor, der die jeweilige Rolle von vorherigen Features und Eingabefeatures berücksichtigt und lediglich die bereits verbesserten Features zur Bereitstellung zusätzlicher Informationen nutzt. Zudem wurde ein adaptiver blockweiser Masken-Vorhersagemodul entwickelt, das unerhebliche Berechnungen aufgrund der Merkmalsähnlichkeit zwischen benachbarten Frames überspringt. Wir führen detaillierte Ablationsstudien durch, um unsere Beiträge zu validieren, und vergleichen die vorgeschlagene Methode mit aktuellen state-of-the-art Ansätzen für VSR. Die experimentellen Ergebnisse zeigen, dass MIA-VSR die Speicher- und Recheneffizienz gegenüber bestehenden state-of-the-art-Methoden verbessert, ohne die PSNR-Genauigkeit einzubüßen. Der Quellcode ist unter https://github.com/LabShuHangGU/MIA-VSR verfügbar.