HyperAIHyperAI
il y a 2 mois

Mobile-Seed : Segmentation sémantique et détection de contours pour robots mobiles

Liao, Youqi ; Kang, Shuhao ; Li, Jianping ; Liu, Yang ; Liu, Yun ; Dong, Zhen ; Yang, Bisheng ; Chen, Xieyuanli
Mobile-Seed : Segmentation sémantique et détection de contours pour robots mobiles
Résumé

La délimitation précise et rapide des contours nets et la sémantique robuste sont essentielles pour de nombreuses tâches robotiques en aval, telles que la saisie et la manipulation par les robots, la cartographie sémantique en temps réel et le calibrage en ligne des capteurs effectué sur des unités de calcul embarqué. Bien que la détection de contours et le segmention sémantique soient des tâches complémentaires, la plupart des études se concentrent sur des modèles légers pour le segmention sémantique mais négligent le rôle crucial de la détection de contours.Dans cette étude, nous présentons Mobile-Seed, un cadre léger à double tâche spécialement conçu pour effectuer simultanément une segmentation sémantique et une détection de contours. Notre cadre comprend un encodeur à deux flux, un décodeur d'fusion active (AFD) et une approche de régularisation à double tâche. L'encodeur est divisé en deux voies : l'une capture des informations sémantiques conscientes des catégories, tandis que l'autre distingue les contours à partir de caractéristiques multi-échelles. Le module AFD adapte dynamiquement la fusion des informations sémantiques et des contours en apprenant les relations canal par canal, permettant ainsi une attribution précise du poids à chaque canal.De plus, nous introduisons une perte de régularisation pour atténuer les conflits dans l'apprentissage à double tâche et la supervision profonde diversifiée. Comparativement aux méthodes existantes, le Mobile-Seed proposé offre un cadre léger qui améliore simultanément les performances de segmentation sémantique et localise précisément les contours des objets. Les expériences menées sur l'ensemble de données Cityscapes ont montré que Mobile-Seed réalise une amélioration notable par rapport au modèle de référence state-of-the-art (SOTA), avec une augmentation de 2,2 points de pourcentage (pp) en mIoU et 4,2 pp en mF-score, tout en maintenant une vitesse d'inférence en ligne de 23,9 images par seconde (FPS) avec une entrée résolue à 1024x2048 sur une GPU RTX 2080 Ti. Des expériences supplémentaires sur les ensembles de données CamVid et PASCAL Context confirment la généralisabilité de notre méthode. Le code source et des résultats supplémentaires sont disponibles publiquement à l'adresse suivante : https://whu-usi3dv.github.io/Mobile-Seed/.