Tiefe gestapelte hierarchische Multi-Patch-Netzwerk für Bildentverkernung

Trotz der Tatsache, dass tiefgreifende End-to-End-Lernmethoden ihre Überlegenheit bei der Entfernung von nicht-uniformem Bewegungsunschärfe gezeigt haben, bestehen bei den aktuellen mehrskaligen und skalenrekurrenten Modellen noch erhebliche Herausforderungen: 1) Dekonvolution-/Aufsampling-Operationen im Verfahren von grob zu fein führen zu hohen Laufzeiten; 2) Eine einfache Erhöhung der Modelltiefe durch feinere Skalen kann die Qualität der Entschärfung nicht verbessern. Um diese Probleme anzugehen, präsentieren wir ein tiefes hierarchisches Mehr-Patch-Netzwerk, das auf dem Prinzip des räumlichen Pyramidenvergleichs (Spatial Pyramid Matching) basiert und unscharfe Bilder durch eine hierarchische Darstellung von fein zu grob verarbeitet. Um die Leistungssättigung in Bezug auf die Tiefe zu bewältigen, schlagen wir eine gestapelte Version unseres Mehr-Patch-Modells vor. Unser vorgeschlagenes grundlegendes Mehr-Patch-Modell erreicht den Stand der Technik auf dem GoPro-Datensatz und profitiert dabei von einer 40-mal schnelleren Laufzeit im Vergleich zu aktuellen mehrskaligen Methoden. Mit einer Bearbeitungszeit von 30 ms für ein Bild in 1280x720 Auflösung ist es das erste Echtzeit-Tiefenmodell zur Bewegungsentschärfung für 720p-Bilder bei 30 fps. Für gestapelte Netze werden auf dem GoPro-Datensatz signifikante Verbesserungen (über 1,2 dB) durch eine Erhöhung der Netzwerktiefe erzielt. Zudem kann man durch Variation der Tiefe des gestapelten Modells die Leistung und Laufzeit desselben Netzwerks für verschiedene Anwendungsszenarien anpassen.