il y a 11 jours

Apprentissage de la détection d'objets à l'aide d'une caméra à événements de 1 mégapixel

Etienne Perot, Pierre de Tournemire, Davide Nitti, Jonathan Masci, Amos Sironi

Résumé

Les caméras à événements codent l’information visuelle avec une précision temporelle élevée, un débit de données faible et une plage dynamique étendue. Grâce à ces caractéristiques, elles sont particulièrement adaptées aux scénarios impliquant des mouvements rapides, des conditions d’éclairage difficiles ou des exigences de faible latence. Toutefois, en raison de la jeunesse du domaine, les performances des systèmes basés sur les événements sur de nombreuses tâches de vision restent inférieures à celles des solutions classiques basées sur des images fixes. Les principales causes de cet écart de performance sont : la résolution spatiale plus faible des capteurs à événements par rapport aux caméras à images fixes ; le manque de grands jeux de données d’apprentissage à grande échelle ; l’absence d’architectures profondes bien établies pour le traitement des événements. Dans cet article, nous abordons tous ces défis dans le cadre d’une tâche de détection d’objets basée sur les événements. Premièrement, nous mettons publiquement à disposition le premier jeu de données à haute résolution et à grande échelle dédié à la détection d’objets. Ce jeu de données comprend plus de 14 heures d’enregistrements réalisés avec une caméra à événements de 1 mégapixel, dans des scénarios automobiles, accompagnés de 25 millions de boîtes englobantes annotées pour les voitures, les piétons et les deux-roues, avec une fréquence élevée. Deuxièmement, nous introduisons une nouvelle architecture récurrente pour la détection basée sur les événements, ainsi qu’une fonction de perte de cohérence temporelle afin d’améliorer la stabilité de l’apprentissage. La capacité à représenter de manière compacte la séquence d’événements dans la mémoire interne du modèle est essentielle pour atteindre une haute précision. Notre modèle surpasse largement les architectures feed-forward basées sur les événements. En outre, notre méthode ne nécessite aucune reconstruction d’images en niveaux de gris à partir des événements, démontrant ainsi qu’il est possible d’apprendre directement à partir des événements bruts, de manière plus efficace et plus précise que par le biais d’une image intermédiaire en niveaux de gris. Des expériences menées sur le jeu de données présenté dans ce travail — pour lequel les événements et les images en niveaux de gris sont disponibles — montrent des performances comparables à celles de détecteurs basés sur des images fixes hautement optimisés et largement étudiés.