Spatio-Temporales Filter-Adaptives Netzwerk für die Entverwischung von Videos

Die Videoentverwischung ist eine herausfordernde Aufgabe aufgrund der räumlich variablen Verwischung, die durch Kamerabewegungen, Objektbewegungen und Tiefenunterschiede usw. verursacht wird. Bestehende Methoden schätzen in der verwischten Videosequenz normalerweise den optischen Fluss, um aufeinanderfolgende Frames zu alignieren oder die Verwischungskerne zu approximieren. Allerdings neigen sie dazu, Artefakte zu erzeugen oder können die Verwischung nicht effektiv entfernen, wenn der geschätzte optische Fluss nicht genau ist. Um die Einschränkungen der getrennten Schätzung des optischen Flusses zu überwinden, schlagen wir ein räumlich-zeitliches Filteradaptives Netzwerk (Spatio-Temporal Filter Adaptive Network, STFAN) vor, das Alignment und Entverwischung in einem vereinheitlichten Framework durchführt. Das vorgeschlagene STFAN nimmt sowohl die verwischten als auch die restaurierten Bilder des vorherigen Frames sowie das verwischte Bild des aktuellen Frames als Eingabe entgegen und generiert dynamisch räumlich adaptive Filter für Alignment und Entverwischung. Anschließend schlagen wir eine neue Filteradaptive Faltungsschicht (Filter Adaptive Convolutional Layer, FAC) vor, um die entverwischten Features des vorherigen Frames mit dem aktuellen Frame zu alignieren und die räumlich variable Verwischung aus den Features des aktuellen Frames zu entfernen. Schließlich entwickeln wir ein Rekonstruktionsnetzwerk, das die Fusion der beiden transformierten Features verwendet, um klare Frames wiederherzustellen. Sowohl quantitative als auch qualitative Bewertungsresultate auf Benchmark-Datensätzen und realen Videos zeigen, dass der vorgeschlagene Algorithmus hinsichtlich Genauigkeit, Geschwindigkeit und Modellgröße günstig gegenüber den besten bisher bekannten Methoden abschneidet.