Echtzeit-Videobeeinträchtigung: Ein Benchmark-Datensatz und ein effizienter rekurrenter neuronalen Netzwerk

Die Entschärfung von Echtzeit-Videos in der realen Welt bleibt aufgrund der Komplexität räumlich und zeitlich variabler Unschärfe sowie der Anforderung an geringen Rechenaufwand weiterhin eine herausfordernde Aufgabe. Um die Netzwerkeffizienz zu verbessern, integrieren wir Residual-Dense-Blöcke in RNN-Zellen, um die räumlichen Merkmale des aktuellen Frames effizient zu extrahieren. Darüber hinaus wird ein globales räumlich-zeitliches Aufmerksamkeitsmodul vorgeschlagen, das hierarchische Merkmale aus vorherigen und zukünftigen Frames effektiv fusioniert, um die Entschärfung des aktuellen Frames zu verbessern. Ein weiteres dringend zu lösendes Problem ist die fehlende Verfügbarmachung eines realen Benchmark-Datensatzes. Daher tragen wir einen neuen Datensatz (BSD) zur Gemeinschaft bei, indem wir paare von unscharfen und scharfen Videosequenzen mit einem koaxialen Strahlteiler-Aufnahmesystem sammeln. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode (ESTRNN) sowohl quantitativ als auch qualitativ eine bessere Entschärfungsleistung erzielt als aktuelle State-of-the-Art-Verfahren für die Video-Entschärfung, und dies mit geringerem Rechenaufwand. Zudem belegen Kreuzvalidierungsversuche zwischen Datensätzen die hohe Allgemeingültigkeit von BSD gegenüber synthetischen Datensätzen. Der Quellcode und der Datensatz sind unter https://github.com/zzh-tech/ESTRNN verfügbar.