Kaskadierte tiefes Video-Deblurring unter Verwendung eines zeitlichen Schärfevorwissens

Wir stellen ein einfaches und effektives tiefes konvolutionelles neuronales Netzwerk (CNN)-Modell für die Video-Entunschärfung vor. Der vorgeschlagene Algorithmus besteht hauptsächlich aus zwei Schritten: der Schätzung von optischem Fluss aus intermediären latenten Frames und der Restaurierung dieser latenten Frames. Zunächst entwickeln wir ein tiefes CNN-Modell zur Schätzung des optischen Flusses aus den intermediären latenten Frames und stellen anschließend die latenten Frames auf Basis des geschätzten optischen Flusses wieder her. Um die zeitlichen Informationen in Videos besser auszunutzen, führen wir einen zeitlichen Schärfe-Prior (temporal sharpness prior) ein, der das tiefe CNN-Modell unterstützt und die Restaurierung der latenten Frames verbessert. Wir entwickeln einen effektiven kaskadierten Trainingsansatz und trainieren das vorgeschlagene CNN-Modell in einer end-to-end-Weise gemeinsam. Wir zeigen, dass die Nutzung domänenspezifischer Kenntnisse zur Video-Entunschärfung dazu beitragen kann, das tiefe CNN-Modell kompakter und effizienter zu gestalten. Umfangreiche experimentelle Ergebnisse belegen, dass der vorgeschlagene Algorithmus gegenüber aktuellen State-of-the-Art-Methoden sowohl auf Benchmark-Datensätzen als auch auf realen Videos überzeugt.