HyperAIHyperAI
vor 2 Monaten

End-to-End Lernen von Repräsentationen für asynchrones ereignisbasiertes Daten

Daniel Gehrig; Antonio Loquercio; Konstantinos G. Derpanis; Davide Scaramuzza
End-to-End Lernen von Repräsentationen für asynchrones ereignisbasiertes Daten
Abstract

Event-Kameras sind Bildsensoren, die asynchrone Ströme von Helligkeitsänderungen pro Pixel aufzeichnen, die als „Ereignisse“ bezeichnet werden. Sie bieten gegenüber rahmenbasierten Kameras für Computer Vision ansprechende Vorteile, darunter eine hohe zeitliche Auflösung, ein hohes Dynamikbereich und kein Bewegungsunschärfe. Aufgrund der dünnen, nicht-uniformen räumlich-zeitlichen Anordnung des Ereignissignals aggregieren Mustererkennungsalgorithmen Ereignisse in der Regel in eine gitterbasierte Darstellung und verarbeiten diese anschließend durch einen Standardvisionsschritt, z.B. ein Faltungsneuronales Netz (Convolutional Neural Network, CNN). In dieser Arbeit stellen wir einen allgemeinen Rahmen vor, um Ereignisströme durch eine Reihe differenzierbarer Operationen in gitterbasierte Darstellungen zu konvertieren. Unser Rahmen hat zwei Hauptvorteile: (i) er ermöglicht das Lernen der Eingabe-Ereignisdarstellung zusammen mit dem task-dedizierten Netzwerk in einem end-to-end Prozess und (ii) er legt eine Taxonomie vor, die die Mehrheit der existierenden Ereignisdarstellungen in der Literatur vereint und neue identifiziert. Empirisch zeigen wir, dass unser Ansatz zum end-to-end Lernen der Ereignisdarstellung eine Verbesserung von etwa 12 % bei der optischen Flussabschätzung und Objekterkennung im Vergleich zu den aktuellen Methoden bringt.

End-to-End Lernen von Repräsentationen für asynchrones ereignisbasiertes Daten | Neueste Forschungsarbeiten | HyperAI