HyperAIHyperAI
vor 17 Tagen

Kombination von Ereignissen und Frames mittels rekurrenter asynchroner multimodaler Netzwerke zur Tiefenabschätzung aus einer einzigen Kamera

Daniel Gehrig, Michelle Rüegg, Mathias Gehrig, Javier Hidalgo Carrio, Davide Scaramuzza
Kombination von Ereignissen und Frames mittels rekurrenter asynchroner multimodaler Netzwerke zur Tiefenabschätzung aus einer einzigen Kamera
Abstract

Ereigniskameras sind neuartige Visionssensoren, die pro-Pixel-Helligkeitsänderungen als asynchrone „Ereignisströme“ berichten. Sie bieten gegenüber herkömmlichen Kameras erhebliche Vorteile durch ihre hohe zeitliche Auflösung, ihren hohen Dynamikbereich und die vollständige Abwesenheit von Bewegungsunschärfe. Allerdings erfassen Ereignisse lediglich die zeitlich veränderliche Komponente des visuellen Signals, was ihre Fähigkeit einschränkt, Szenenkontext zu kodieren. Im Gegensatz dazu messen herkömmliche Kameras absolute Intensitätsbilder, die eine viel reichhaltigere Darstellung der Szene liefern. Beide Sensoren ergänzen sich somit ideal. Aufgrund der asynchronen Natur der Ereignisse bleibt die Kombination mit synchronen Bildern jedoch herausfordernd, insbesondere für lernbasierte Ansätze. Dies liegt daran, dass traditionelle rekurrente neuronale Netze (RNNs) nicht für asynchrone und unregelmäßige Daten aus zusätzlichen Sensoren konzipiert sind. Um diese Herausforderung zu bewältigen, stellen wir rekurrente asynchrone multimodale (RAM) Netze vor, die traditionelle RNNs verallgemeinern, um asynchrone und unregelmäßige Daten aus mehreren Sensoren zu verarbeiten. Inspiriert von klassischen RNNs bewahren RAM-Netze einen versteckten Zustand, der asynchron aktualisiert wird und jederzeit abgefragt werden kann, um eine Vorhersage zu generieren. Wir wenden diese neuartige Architektur auf die monokulare Tiefenschätzung mit Ereignissen und Bildern an und zeigen eine Verbesserung gegenüber den derzeit besten Methoden um bis zu 30 % bezüglich des mittleren absoluten Tiefenfehlers. Um zukünftige Forschung im Bereich multimodaler Lernverfahren mit Ereignissen zu fördern, veröffentlichen wir das neue Datenset EventScape, das Ereignisse, Intensitätsbilder, semantische Labels und Tiefenkarten enthält, die im CARLA-Simulator aufgezeichnet wurden.