Deformable Convolutionen und ein LSTM-basierter flexibler Ereignisrahmen-Fusionsnetzwerk für Bewegungsunschärfebeseitigung

Ereigniskameras unterscheiden sich von herkömmlichen RGB-Kameras dadurch, dass sie asynchrone Datensequenzen erzeugen. Während RGB-Kameras jeden Frame mit einer festen Frequenz aufnehmen, erfassen Ereigniskameras lediglich Änderungen im Szenenbild, was zu einer spärlichen und asynchronen Datenausgabe führt. Obwohl Ereignisdaten nützliche Informationen enthalten, die zur Bewegungsunschärfekorrektur von RGB-Bildern genutzt werden können, stellt die Integration von Ereignis- und Bildinformationen weiterhin eine Herausforderung dar. Neuere state-of-the-art CNN-basierte Deblurring-Lösungen generieren mehrere 2D-Ereignisframes durch Akkumulation der Ereignisdaten über einen Zeitraum. In den meisten dieser Ansätze ist jedoch die Anzahl der Ereignisframes fest und vordefiniert, was die zeitliche Auflösung erheblich reduziert, insbesondere bei schnell bewegten Objekten oder bei längeren Belichtungszeiten. Zudem ist zu beachten, dass moderne Kameras (z. B. in Mobiltelefonen) die Belichtungszeit dynamisch anpassen, was für Netzwerke, die auf eine feste Anzahl von Ereignisframes ausgelegt sind, zusätzliche Probleme verursacht. Um diese Herausforderungen zu bewältigen, wurde ein auf Long Short-Term Memory (LSTM)-Architekturen basierendes Modul zur Ereignismerkmalsextraktion entwickelt, das eine variable Anzahl von Ereignisframes ermöglicht. Mit diesem Modul haben wir ein state-of-the-art-Deblurring-Netzwerk, den Deformable Convolutions and LSTM-based Flexible Event Frame Fusion Network (DLEFNet), konstruiert. Dieses Netzwerk ist besonders nützlich für Szenarien, in denen die Belichtungszeit je nach Lichtbedingungen oder der Anwesenheit schnell bewegter Objekte variiert. Die Evaluationsergebnisse zeigen, dass die vorgeschlagene Methode sowohl auf synthetischen als auch auf realen Datensätzen die bestehenden state-of-the-art-Netzwerke für die Deblurring-Aufgabe übertrifft.