ALERT-Transformer: Brückenbildung zwischen asynchroner und synchroner maschinelles Lernen für Echtzeit-Ereignisbasierte räumlich-zeitliche Daten

Wir streben die klassische Verarbeitung kontinuierlicher, extrem spärlicher räumlich-zeitlicher Daten an, die von ereignisbasierten Sensoren generiert werden, unter Verwendung dichter maschineller Lernmodelle. Wir schlagen einen neuartigen hybriden Pipelines Ansatz vor, der asynchrone Sensierung mit synchroner Verarbeitung verbindet und mehrere Ideen integriert: (1) eine auf PointNet-Modellen basierende Einbettung – das ALERT-Modul –, das kontinuierlich neue Ereignisse aufnimmt und alte Ereignisse aufgrund einer Leckmechanik ablegt, (2) eine flexible Auslese der eingebetteten Daten, die es ermöglicht, jedes nachgeschaltete Modell mit stets aktuellen Merkmalen bei beliebiger Abtastfrequenz zu versorgen, und (3) die Ausnutzung der Eingabesparsamkeit durch einen patchbasierten Ansatz, der sich an den Vision Transformer anlehnt, um die Effizienz der Methode zu optimieren. Diese Einbettungen werden anschließend von einem Transformer-Modell verarbeitet, das für Objekt- und Gestenerkennung trainiert wurde. Mit diesem Ansatz erreichen wir Leistungen auf dem Stand der Technik bei geringerer Latenz als Konkurrenzansätze. Zudem zeigen wir, dass unser asynchroner Ansatz bei jeder gewünschten Abtastfrequenz betrieben werden kann.