Tiefenbildentverzerrung für Handkameras

Bewegungsunschärfe durch Kameraverschiebung stellt ein zentrales Problem bei Videos dar, die mit handgehaltenen Geräten aufgenommen wurden. Im Gegensatz zur Deblurring-Verarbeitung einzelner Bilder können videobasierte Ansätze die reichhaltige Information nutzen, die zwischen benachbarten Bildern vorhanden ist. Daher beruhen die leistungsfähigsten Methoden auf der Ausrichtung benachbarter Frames. Die Ausrichtung von Bildern ist jedoch ein rechenintensiver und empfindlicher Prozess, weshalb Methoden zur Informationsaggregation in der Lage sein müssen, genau zu erkennen, welche Bereiche korrekt ausgerichtet wurden und welche nicht – eine Aufgabe, die ein hohes Maß an Szenenverstehen erfordert. In dieser Arbeit stellen wir eine tiefenlernbasierte Lösung für das Videodeblurring vor, bei der ein CNN end-to-end trainiert wird, um zu lernen, wie Informationen über mehrere Frames hinweg aggregiert werden können. Zur Trainingsdatenbeschaffung haben wir eine Datensammlung realer Videos mit einer hohen Frame-Rate erfasst, die wir zur Generierung synthetischer Bewegungsunschärfe zur Überwachung nutzen. Wir zeigen, dass die aus diesem Datensatz gelernten Merkmale auf die Deblurring von Bewegungsunschärfe aufgrund von Kameraverschiebung in einer Vielzahl unterschiedlicher Videos übertragbar sind, und vergleichen die Qualität der Ergebnisse mit mehreren anderen Baseline-Methoden.