ALERT-Transformer : Pont entre l'apprentissage automatique asynchrone et synchrone pour les données spatio-temporelles événementielles en temps réel

Nous cherchons à permettre le traitement classique de données spatiotemporphes ultra-rarefies continues produites par des capteurs basés sur les événements, en utilisant des modèles d'apprentissage automatique denses. Nous proposons une nouvelle pipeline hybride composée d'une acquisition asynchrone et d'un traitement synchrone, intégrant plusieurs idées innovantes : (1) un module d'encodage basé sur les modèles PointNet — le module ALERT — capable d'intégrer continuellement de nouveaux événements tout en éliminant progressivement les anciens grâce à un mécanisme de fuite, (2) une lecture flexible des données encodées, permettant d'alimenter tout modèle en aval avec des caractéristiques toujours à jour, à n'importe quel taux d'échantillonnage, (3) l'exploitation de la sparsité des entrées via une approche par patches inspirée du Vision Transformer, afin d'optimiser l'efficacité de la méthode. Ces embeddings sont ensuite traités par un modèle Transformer entraîné pour la reconnaissance d'objets et de gestes. Grâce à cette approche, nous atteignons des performances au niveau de l'état de l'art, avec une latence inférieure à celle des méthodes concurrentes. Nous démontrons également que notre modèle asynchrone peut fonctionner à tout taux d'échantillonnage souhaité.