HyperAIHyperAI
vor 17 Tagen

Zustandsraummodelle für Ereigniskameras

Nikola Zubić, Mathias Gehrig, Davide Scaramuzza
Zustandsraummodelle für Ereigniskameras
Abstract

Heute konvertieren state-of-the-art tiefe neuronale Netze, die Ereigniskameradaten verarbeiten, zunächst einen zeitlichen Ereignisfenster in dichte, gitterartige Eingaberepräsentationen. Dadurch weisen sie bei einer höheren Inferenzfrequenz (d. h. kleineren zeitlichen Fenstern) als der während des Trainings verwendeten eine schlechte Verallgemeinerungsfähigkeit auf. Wir begegnen dieser Herausforderung, indem wir Zustandsraummodelle (State-Space Models, SSMs) mit lernbaren Zeitskalenparametern für die ereignisbasierte Vision einführen. Dieses Design passt sich variierenden Frequenzen an, ohne dass das Netzwerk bei unterschiedlichen Frequenzen neu trainiert werden muss. Zudem untersuchen wir zwei Strategien, um Aliasing-Effekte zu minimieren, wenn das Modell mit höherer Frequenz eingesetzt wird. Wir evaluieren unseren Ansatz umfassend gegenüber bestehenden Methoden auf Basis von RNN- und Transformer-Architekturen an verschiedenen Benchmarks, darunter Datensätze von Gen1- und 1-Mpx-Ereigniskameras. Unsere Ergebnisse zeigen, dass SSM-basierte Modelle um 33 % schneller trainiert werden können und zudem bei Tests mit höheren Frequenzen als während des Trainings nur eine minimale Leistungsabnahme aufweisen. Traditionelle RNN- und Transformer-Modelle zeigen Leistungsabfälle von mehr als 20 mAP, während SSMs lediglich einen Abfall von 3,76 mAP aufweisen, was die Wirksamkeit von SSMs bei ereignisbasierten Visionaufgaben unterstreicht.