GMNet : Réseau de correspondance de graphes pour la segmentation sémantique de parties à grande échelle dans des environnements réels

La segmentation sémantique des parties d'objets dans des scènes naturelles constitue une tâche difficile, dans laquelle plusieurs instances d'objets ainsi que plusieurs parties au sein de ces objets doivent être détectées dans une scène donnée. Ce problème reste aujourd'hui très peu exploré, malgré son importance fondamentale pour une compréhension détaillée des objets. Dans ce travail, nous proposons un cadre novateur combinant une conditionnalité contextuelle au niveau de l'objet et des relations spatiales au niveau des parties afin de traiter cette tâche. Pour atténuer l'ambiguïté au niveau de l'objet, nous introduisons un module de conditionnalité par classe, qui préserve les informations sémantiques au niveau de la classe lors de l'apprentissage des caractéristiques au niveau des parties. Ainsi, les caractéristiques de niveau intermédiaire portent également cette information avant l'étape de décodage. Pour faire face à l'ambiguïté et au problème de localisation au niveau des parties, nous proposons un nouveau module basé sur un graphe d'adjacence, dont l'objectif est de correspondre aux relations spatiales relatives entre les parties vérité terrain et les parties prédites. L'évaluation expérimentale sur le jeu de données Pascal-Part montre que nous atteignons des résultats de pointe (state-of-the-art) sur cette tâche.