HyperAIHyperAI
vor 2 Monaten

Rekurrenter Video-Wiederherstellungs-Transformer mit geleiteter deformierbarer Aufmerksamkeit

Liang, Jingyun ; Fan, Yuchen ; Xiang, Xiaoyu ; Ranjan, Rakesh ; Ilg, Eddy ; Green, Simon ; Cao, Jiezhang ; Zhang, Kai ; Timofte, Radu ; Van Gool, Luc
Rekurrenter Video-Wiederherstellungs-Transformer mit geleiteter deformierbarer Aufmerksamkeit
Abstract

Die Video-Wiederherstellung zielt darauf ab, mehrere hochwertige Frames aus mehreren niedrigwertigen Frames wiederherzustellen. Bestehende Methoden der Video-Wiederherstellung lassen sich im Allgemeinen in zwei Extremfälle einteilen: Sie restaurieren entweder alle Frames gleichzeitig oder verarbeiten das Video rekurrent Frame für Frame, was jeweils verschiedene Vor- und Nachteile mit sich bringt. Typischerweise hat die erste Methode den Vorteil der zeitlichen Informationsfusion. Allerdings leidet sie an einer großen Modellgröße und intensiven Speicherverbrauch; die zweite Methode hat eine relativ kleine Modellgröße, da sie Parameter über mehrere Frames hinweg teilt; jedoch fehlt ihr die Fähigkeit zur Modellierung langer Abhängigkeiten und Parallelisierbarkeit. In dieser Arbeit versuchen wir, die Vorteile beider Ansätze zu integrieren, indem wir einen rekurrenten Video-Wiederherstellungs-Transformer (RVRT) vorschlagen. Der RVRT verarbeitet lokale benachbarte Frames parallel innerhalb eines global rekurrenten Rahmens, was einen guten Kompromiss zwischen Modellgröße, Effektivität und Effizienz ermöglicht. Im Speziellen teilt der RVRT das Video in mehrere Clips auf und nutzt die vorhergehend inferierten Clip-Features, um die nachfolgenden Clip-Features zu schätzen. Innerhalb jedes Clips werden verschiedene Frame-Features durch implizite Feature-Aggregation gemeinsam aktualisiert. Über verschiedene Clips hinweg ist eine geleitete deformierbare Aufmerksamkeit (guided deformable attention) entwickelt worden, um die Ausrichtung von Clip zu Clip sicherzustellen. Diese Mechanismus prognostiziert mehrere relevante Positionen aus dem gesamten inferierten Clip und aggregiert ihre Features durch den Aufmerksamkeitsmechanismus. Umfangreiche Experimente zur Videosuperresolution, Entverunschärfung (deblurring) und Entrauschung (denoising) zeigen, dass der vorgeschlagene RVRT auf Benchmark-Datensätzen mit balancierter Modellgröße, Test-Speicherverbrauch und Laufzeit den Stand der Technik erreicht.

Rekurrenter Video-Wiederherstellungs-Transformer mit geleiteter deformierbarer Aufmerksamkeit | Neueste Forschungsarbeiten | HyperAI