Ecsnet : apprentissage des caractéristiques spatio-temporelles pour caméra d’événements
Les caméras événementielles neuromorphiques peuvent capter efficacement les structures géométriques latentes et les indices de mouvement d'une scène en générant des signaux événementiels asynchrones et rares. En raison de la disposition irrégulière de ces signaux, la manière dont leurs informations riches en temps et en espace peuvent être exploitées pour des tâches de reconnaissance demeure un défi majeur. Les méthodes existantes ont tendance à traiter les événements comme des représentations similaires à des images denses ou des séries de points. Toutefois, elles souffrent soit d'une destruction importante de la sparsité des données événementielles, soit d'une capacité insuffisante à encoder des indices spatiaux robustes. Afin d’exploiter pleinement la sparsité intrinsèque tout en conciliant les informations spatio-temporelles, nous proposons une représentation compacte des événements, nommée séquence de nuage d’événements 2D-1T (2D-1T ECS). Nous associons cette représentation à un nouveau cadre léger d’apprentissage spatio-temporel (ECSNet), capable de traiter à la fois la classification d’objets et la reconnaissance d’actions. Le cœur de notre cadre est un module hiérarchique de relations spatiales. Doté d’une unité d’échantillonnage basée sur la surface événementielle spécialement conçue et d’une unité de normalisation locale des événements, ce module permet une meilleure encodage des relations entre événements, afin d’extraire des caractéristiques géométriques robustes à partir des nuages d’événements 2D. Par ailleurs, nous introduisons un module d’attention au mouvement pour capturer efficacement le contexte temporel à long terme évoluant au fil de la séquence de nuages 1T. Expérimentalement, les résultats montrent que notre cadre atteint des performances parmi les meilleures, voire supérieures aux états de l’art actuels. Plus important encore, notre approche s’adapte parfaitement à la sparsité des données événementielles sans nécessiter de manipulations complexes, conduisant ainsi à des coûts computationnels faibles et à des vitesses d’inférence remarquables.