vor 17 Tagen

Flow-geleiteter sparser Transformer für die Video-Entschärfung

Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Youliang Yan, Xueyi Zou, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool

Details der Forschungsarbeit anzeigen

Flow-geleiteter sparser Transformer für die Video-Entschärfung

Abstract

Die Ausnutzung ähnlicher und schärferer Szenenabschnitte in räumlich-zeitlichen Nachbarschaften ist entscheidend für die Video-Entschärfung. Allerdings zeigen CNN-basierte Methoden Einschränkungen hinsichtlich der Erfassung von langen Abständen und der Modellierung von nicht-lokaler Selbstähnlichkeit. In diesem Artikel stellen wir einen neuartigen Ansatz, den Flow-Guided Sparse Transformer (FGST), für die Video-Entschärfung vor. Im FGST integrieren wir eine maßgeschneiderte Selbst-Attention-Modul, das Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). Für jedes $query$-Element im unscharfen Referenzframe ermöglicht FGSW-MSA durch die geschätzte optische Flussinformation eine globale, räumlich spärliche, aber hochrelevanten Auswahl von $key$-Elementen, die denselben Szenenabschnitt in benachbarten Frames repräsentieren. Zusätzlich führen wir eine rekurrente Embedding-(RE)-Mechanismus ein, um Informationen aus vorherigen Frames zu übertragen und damit langfristige zeitliche Abhängigkeiten zu stärken. Umfassende Experimente zeigen, dass unser vorgeschlagener FGST sowohl auf den DVD- als auch auf den GOPRO-Datensätzen die derzeit besten (SOTA) Methoden übertrifft und zudem bei der realen Video-Entschärfung visuell ansprechendere Ergebnisse liefert. Der Quellcode und vortrainierte Modelle sind öffentlich unter https://github.com/linjing7/VR-Baseline verfügbar.