Représentation binaire temporelle pour la reconnaissance d'actions basée sur les événements

Dans cet article, nous présentons une stratégie d’agrégation d’événements visant à convertir la sortie d’une caméra à événements en images traitables par des algorithmes classiques de vision par ordinateur. La méthode proposée commence par générer des séquences de représentations binaires intermédiaires, qui sont ensuite transformées de manière sans perte en un format compact en appliquant simplement une conversion binaire-décimale. Cette approche permet d’encoder directement les informations temporelles dans les valeurs des pixels, lesquelles sont ensuite interprétées par des modèles d’apprentissage profond. Nous appliquons cette stratégie, nommée Représentation Binaire Temporelle, à la tâche de reconnaissance de gestes, obtenant des résultats de pointe sur le dataset populaire DVS128 Gesture. Pour souligner l’efficacité de la méthode proposée par rapport aux approches existantes, nous avons également collecté une extension du dataset sous des conditions plus exigeantes afin d’y mener des expériences.