HyperAIHyperAI
vor 15 Tagen

GET: Group Event Transformer für ereignisbasierte Vision

Yansong Peng, Yueyi Zhang, Zhiwei Xiong, Xiaoyan Sun, Feng Wu
GET: Group Event Transformer für ereignisbasierte Vision
Abstract

Event-Kameras sind eine Art neuartiger neuromorpher Sensoren, die zunehmend an Aufmerksamkeit gewinnen. Die bisherigen auf Ereignissen basierenden Backbone-Architekturen stützen sich hauptsächlich auf bildbasierte Entwürfe, um räumliche Informationen innerhalb aus Ereignissen transformierter Bilder zu extrahieren, wobei wichtige Eigenschaften von Ereignissen wie Zeitstempel und Polarität vernachlässigt werden. Um dieses Problem anzugehen, schlagen wir einen neuen Gruppen-basierten Vision-Transformer-Backbone für ereignisbasierte Vision vor, namens Group Event Transformer (GET), der zeitlich-polaritätsspezifische Informationen während des gesamten Merkmalsextraktionsprozesses von räumlichen Informationen entkoppelt. Konkret führen wir zunächst eine neue Ereignisdarstellung für GET ein, die als Group Token bezeichnet wird und asynchrone Ereignisse anhand ihrer Zeitstempel und Polaritäten gruppiert. Anschließend wendet GET den Event Dual Self-Attention-Block sowie das Group Token Aggregation-Modul an, um eine effektive Merkmalskommunikation und -integration sowohl im räumlichen als auch im zeitlich-polaritätsspezifischen Bereich zu ermöglichen. Danach kann GET durch Anschluss verschiedener Head-Module mit unterschiedlichen Aufgaben im nachgeschalteten Bereich integriert werden. Wir evaluieren unsere Methode an vier ereignisbasierten Klassifikationsdatensätzen (Cifar10-DVS, N-MNIST, N-CARS und DVS128Gesture) sowie zwei ereignisbasierten Objekterkennungsdatensätzen (1Mpx und Gen1). Die Ergebnisse zeigen, dass GET andere state-of-the-art-Methoden übertrifft. Der Quellcode ist unter https://github.com/Peterande/GET-Group-Event-Transformer verfügbar.

GET: Group Event Transformer für ereignisbasierte Vision | Neueste Forschungsarbeiten | HyperAI