HyperAIHyperAI
il y a 17 jours

HALSIE : Approche hybride d'apprentissage de la segmentation par l'exploitation simultanée des modalités image et événement

Shristi Das Biswas, Adarsh Kosta, Chamika Liyanagedera, Marco Apolinario, Kaushik Roy
HALSIE : Approche hybride d'apprentissage de la segmentation par l'exploitation simultanée des modalités image et événement
Résumé

Les caméras à événements détectent les variations d’intensité par pixel pour générer des flux d’événements asynchrones. Elles offrent un potentiel considérable pour la récupération de cartes sémantiques précises en temps réel dans les systèmes autonomes, en raison de leur résolution temporelle bien plus élevée et de leur plage dynamique étendue (HDR) par rapport aux caméras conventionnelles. Toutefois, les implémentations existantes pour la segmentation basée sur les événements souffrent d’une performance sous-optimale, car ces événements très denses dans le temps ne mesurent que la composante variable d’un signal visuel, ce qui limite leur capacité à encoder un contexte spatial dense par rapport aux images fixes (frames). Pour résoudre ce problème, nous proposons un cadre d’apprentissage hybride et end-to-end, nommé HALSIE, qui repose sur trois concepts clés permettant de réduire le coût d’inférence jusqu’à 20 fois par rapport aux approches antérieures tout en préservant des performances similaires : premièrement, un schéma d’apprentissage cross-domain simple et efficace pour extraire des embeddings spatio-temporels complémentaires à partir à la fois des images fixes et des événements ; deuxièmement, un schéma d’encodeur dual spécialement conçu, comprenant des branches basées sur des réseaux de neurones à impulsions (SNN) et des réseaux de neurones artificiels (ANN), afin de minimiser la latence tout en conservant une agrégation efficace des caractéristiques cross-domain ; troisièmement, un module multi-échelle de mélange de signaux (cue mixer) pour modéliser des représentations riches à partir des embeddings fusionnés. Ces caractéristiques permettent à HALSIE d’adopter une architecture extrêmement légère, atteignant des performances de segmentation de pointe sur les jeux de données DDD-17, MVSEC et DSEC-Semantic, avec une efficacité des paramètres jusqu’à 33 fois supérieure et un coût d’inférence favorable (17,9 mJ par cycle). L’étude d’ablation menée également apporte de nouvelles perspectives sur des choix de conception efficaces, pouvant s’avérer bénéfiques pour la recherche dans d’autres tâches de vision.