HyperAIHyperAI
il y a 17 jours

Bimodal SegNet : segmentation d'instances combinant des événements et des trames RGB pour la saisie robotique

Sanket Kachole, Xiaoqian Huang, Fariborz Baghaei Naeini, Rajkumar Muthusamy, Dimitrios Makris, Yahya Zweiri
Bimodal SegNet : segmentation d'instances combinant des événements et des trames RGB pour la saisie robotique
Résumé

La segmentation d'objets pour la saisie robotique dans des conditions dynamiques est souvent confrontée à des défis tels que l'occlusion, les faibles niveaux d'éclairage, le flou de mouvement et les variations de taille des objets. Pour relever ces difficultés, nous proposons un réseau de deep learning qui fusionne deux types de signaux visuels : les données basées sur les événements et les données d'images RGB. Le réseau Bimodal SegNet proposé dispose de deux encodeurs distincts, chacun dédié à un type d'entrée, ainsi qu'un pooling pyramidal spatial utilisant des convolutions dilatées. Les encodeurs captent des informations contextuelles riches en combinant et en agrégant les caractéristiques à différentes résolutions, tandis que le décodeur permet d’obtenir des frontières d’objets nettes. L’évaluation de la méthode proposée est menée sur cinq défis spécifiques de dégradation d’image — occlusion, flou, luminosité, trajectoire et variation d’échelle — au sein du jeu de données Event-based Segmentation (ESD). Les résultats montrent une amélioration de 6 à 10 % en précision de segmentation par rapport aux méthodes de pointe, mesurée en termes de moyenne de l’intersection sur union (mIoU) et de précision au niveau des pixels. Le code source du modèle est disponible à l’adresse suivante : https://github.com/sanket0707/Bimodal-SegNet.git