Modélisation d'événements masqués : pré-entraînement auto-supervisé pour les caméras d'événements

Les caméras à événements captent de manière asynchrone les variations d'intensité lumineuse avec une faible latence, une haute résolution temporelle et une large dynamique. Toutefois, l'étiquetage des données d'événements constitue un processus coûteux et fastidieux, ce qui limite l'application des méthodes d'apprentissage profond pour des tâches de classification et autres tâches sémantiques utilisant ce mode de capteur. Afin de réduire la dépendance vis-à-vis des données d'événements étiquetées, nous introduisons Masked Event Modeling (MEM), un cadre d'apprentissage auto-supervisé dédié aux événements. Notre méthode pré-entraîne un réseau neuronal sur des données d'événements non étiquetées, provenant de tout enregistrement effectué par une caméra à événements. Ensuite, le modèle pré-entraîné est affiné sur une tâche spécifique, entraînant une amélioration constante de la précision de la tâche. Par exemple, notre méthode atteint des performances de classification de pointe sur trois jeux de données : N-ImageNet, N-Cars et N-Caltech101, en augmentant significativement la précision top-1 par rapport aux travaux antérieurs. Lorsqu'elle est testée sur des données d'événements réelles du monde réel, MEM s'avère même supérieure à l'apprentissage préalable supervisé basé sur des images RGB. De plus, les modèles pré-entraînés avec MEM sont efficaces en termes d'étiquetage et se généralisent bien à la tâche dense de segmentation sémantique d'images.