GET : Transformateur d'événements par groupe pour la vision basée sur les événements

Les caméras à événements sont un type de capteur neuromorphique innovant qui suscite un intérêt croissant. Les architectures existantes basées sur les événements s'appuient principalement sur des conceptions inspirées des images pour extraire les informations spatiales à partir d'images synthétisées à partir des événements, tout en négligeant des propriétés essentielles des événements telles que le temps et la polarité. Pour résoudre ce problème, nous proposons une nouvelle architecture fondamentale pour la vision basée sur les événements, appelée Group Event Transformer (GET), un Transformer vision basé sur le regroupement, qui découple de manière explicite les informations temporelles et polaires des informations spatiales tout au long du processus d'extraction de caractéristiques. Plus précisément, nous introduisons tout d’abord une nouvelle représentation d’événements pour GET, nommée Group Token, qui regroupe les événements asynchrones selon leurs instants d’occurrence et leurs polarités. Ensuite, GET met en œuvre un bloc d’attention auto-double pour les événements ainsi qu’un module d’agrégation des Group Tokens afin de favoriser une communication et une intégration efficaces des caractéristiques à la fois dans les domaines spatiaux et temporel-polaire. Enfin, GET peut être facilement intégré à diverses tâches en aval en étant couplé à différentes têtes adaptées. Nous évaluons notre méthode sur quatre jeux de données de classification basés sur les événements (Cifar10-DVS, N-MNIST, N-CARS et DVS128Gesture) ainsi que sur deux jeux de données de détection d’objets basés sur les événements (1Mpx et Gen1). Les résultats montrent que GET surpasser les méthodes de pointe existantes. Le code est disponible à l’adresse suivante : https://github.com/Peterande/GET-Group-Event-Transformer.