Command Palette
Search for a command to run...
Flow-geleiteter sparser Transformer für die Video-Entschärfung
Flow-geleiteter sparser Transformer für die Video-Entschärfung
Jing Lin Yuanhao Cai Xiaowan Hu Haoqian Wang Youliang Yan Xueyi Zou Henghui Ding Yulun Zhang Radu Timofte Luc Van Gool
Zusammenfassung
Die Ausnutzung ähnlicher und schärferer Szenenabschnitte in räumlich-zeitlichen Nachbarschaften ist entscheidend für die Video-Entschärfung. Allerdings zeigen CNN-basierte Methoden Einschränkungen hinsichtlich der Erfassung von langen Abständen und der Modellierung von nicht-lokaler Selbstähnlichkeit. In diesem Artikel stellen wir einen neuartigen Ansatz, den Flow-Guided Sparse Transformer (FGST), für die Video-Entschärfung vor. Im FGST integrieren wir eine maßgeschneiderte Selbst-Attention-Modul, das Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). Für jedes query-Element im unscharfen Referenzframe ermöglicht FGSW-MSA durch die geschätzte optische Flussinformation eine globale, räumlich spärliche, aber hochrelevanten Auswahl von key-Elementen, die denselben Szenenabschnitt in benachbarten Frames repräsentieren. Zusätzlich führen wir eine rekurrente Embedding-(RE)-Mechanismus ein, um Informationen aus vorherigen Frames zu übertragen und damit langfristige zeitliche Abhängigkeiten zu stärken. Umfassende Experimente zeigen, dass unser vorgeschlagener FGST sowohl auf den DVD- als auch auf den GOPRO-Datensätzen die derzeit besten (SOTA) Methoden übertrifft und zudem bei der realen Video-Entschärfung visuell ansprechendere Ergebnisse liefert. Der Quellcode und vortrainierte Modelle sind öffentlich unter https://github.com/linjing7/VR-Baseline verfügbar.