Blur-aware Spatio-temporal Sparse Transformer für die Video-Entschärfung

Die Video-Deblurring-Methode beruht darauf, Informationen aus anderen Frames der Videosequenz zu nutzen, um die verschwommenen Bereiche im aktuellen Frame wiederherzustellen. Mainstream-Ansätze setzen dabei auf bidirektionale Merkmalspropagation, spatio-temporale Transformer oder eine Kombination beider Ansätze, um Informationen aus der Videosequenz zu extrahieren. Allerdings beschränken sich die zeitlichen Fensterlängen der spatio-temporalen Transformer aufgrund von Speicher- und Rechenressourcen, wodurch die Ausnutzung längerer zeitlicher Kontextinformationen aus der Sequenz verhindert wird. Zudem ist die bidirektionale Merkmalspropagation hoch empfindlich gegenüber ungenauen optischen Flüssen in verschwommenen Frames, was zu einer Fehlerakkumulation während des Propagationsprozesses führt. Um diese Probleme zu lösen, schlagen wir \textbf{BSSTNet}, ein \textbf{B}lur-aware \textbf{S}patio-\textbf{t}emporal \textbf{S}parse \textbf{T}ransformer Netzwerk, vor. Es führt eine Verschwommheitskarte (blur map) ein, die die ursprünglich dichte Aufmerksamkeit in eine spärliche Form umwandelt und somit eine effizientere Nutzung von Informationen über die gesamte Videosequenz hinweg ermöglicht. Konkret ermöglicht BSSTNet (1) die Nutzung eines längeren zeitlichen Fensters im Transformer, wodurch Informationen aus weiter entfernten Frames genutzt werden können, um die verschwommenen Pixel im aktuellen Frame besser wiederherzustellen. (2) Einführung einer bidirektionalen Merkmalspropagation, die durch Verschwommheitskarten geleitet wird, wodurch die Fehlerakkumulation, verursacht durch verschwommene Frames, reduziert wird. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene BSSTNet die state-of-the-art-Methoden auf den Datensätzen GoPro und DVD übertrifft.