Dynamische Szenen-Entschärfung mithilfe räumlich variabler rekurrenter neuronaler Netzwerke

Aufgrund der ortsabhängigen Verschmierung, die durch Kameraverschiebungen und Objektbewegungen bei unterschiedlichen Szenentiefen verursacht wird, ist die Entschärfung von Bildern aus dynamischen Szenen eine herausfordernde Aufgabe. Obwohl jüngste Ansätze auf Basis tiefer neuronalen Netze erhebliche Fortschritte auf diesem Gebiet erzielt haben, sind ihre Modelle meist groß und rechenintensiv. In diesem Artikel stellen wir ein neuartiges ortsabhängiges neuronales Netzwerk vor, um dieses Problem zu lösen. Das vorgeschlagene Netzwerk besteht aus drei tiefen convolutionalen neuronalen Netzen (CNNs) und einem rekurrenten neuronalen Netzwerk (RNN). Das RNN fungiert als Deconvolutionsoperator, der auf Merkmalskarten angewendet wird, die von einem der CNNs aus dem Eingabebild extrahiert wurden. Ein weiteres CNN lernt dabei an jeder Position die Gewichte für das RNN. Dadurch wird das RNN ortsabhängig und kann den Entschärfungsprozess mit ortsabhängigen Kerneln implizit modellieren. Das dritte CNN dient zur Rekonstruktion der finalen entfalteten Merkmalskarten in das restaurierte Bild. Das gesamte Netzwerk ist end-to-end trainierbar. Unsere Analyse zeigt, dass das vorgeschlagene Netzwerk selbst bei geringer Modellgröße einen großen Empfindungsfeld (receptive field) aufweist. Quantitative und qualitative Bewertungen an öffentlichen Datensätzen belegen, dass die vorgeschlagene Methode im Vergleich zu aktuellen State-of-the-Art-Algorithmen hinsichtlich Genauigkeit, Geschwindigkeit und Modellgröße überzeugt.