ESS : Apprentissage de la segmentation sémantique basée sur les événements à partir d'images statiques

Le récupérage d’informations sémantiques précises dans des conditions difficiles, telles que les plages dynamiques élevées (HDR) et les vitesses élevées, reste un défi ouvert pour les algorithmes basés sur les images, en raison de dégradations sévères des images. Les caméras à événements promettent de relever ces défis grâce à une plage dynamique bien plus élevée et à une résistance naturelle au flou de mouvement. Néanmoins, la segmentation sémantique à l’aide de caméras à événements est encore à ses balbutiements, principalement en raison du manque de jeux de données étiquetés de haute qualité. Dans ce travail, nous introduisons ESS (Event-based Semantic Segmentation), une méthode qui aborde ce problème en transférant directement la tâche de segmentation sémantique depuis des jeux de données d’images étiquetées existants vers des événements non étiquetés, via une adaptation de domaine non supervisée (UDA). Contrairement aux méthodes UDA existantes, notre approche aligne des embeddings événementiels récurrents et invariants au mouvement avec les embeddings d’images. En conséquence, notre méthode n’a pas besoin de données vidéo, ni d’alignement pixel par pixel entre images et événements, et, ce qui est crucial, ne nécessite pas de « halluciner » un mouvement à partir d’images statiques. En outre, nous introduisons DSEC-Semantic, le premier grand jeu de données basé sur les événements avec des étiquettes fines. Nous montrons que, en utilisant uniquement les étiquettes d’images, ESS surpasse les approches UDA existantes, et, lorsqu’elle est combinée avec des étiquettes événementielles, elle dépasse même les meilleures approches supervisées sur les deux jeux de données DDD17 et DSEC-Semantic. Enfin, ESS est une méthode généraliste, ce qui permet d’exploiter l’immense quantité de jeux de données d’images étiquetées déjà disponibles, tout en ouvrant la voie à de nouvelles directions de recherche passionnantes dans des domaines auparavant inaccessibles aux caméras à événements.