Exploitation des informations au niveau des instances, des images et du jeu de données pour la segmentation d'instances faiblement supervisée
La segmentation sémantique d’instances faiblement supervisée, ne reposant que sur une supervision au niveau de l’image plutôt que sur des masques pixel par pixel coûteux ou des annotations de boîtes englobantes, constitue un problème crucial pour atténuer la forte consommation de données inhérente aux méthodes d’apprentissage profond. Dans cet article, nous abordons ce défi en agrégant les informations au niveau de l’image issues de toutes les images d’entraînement dans un grand graphe de connaissance, et en exploitant les relations sémantiques issues de ce graphe. Plus précisément, notre approche part de propositions d’objets basées sur des segments (SOP, segment-based object proposals) génériques, sans hypothèses a priori sur les catégories. Nous proposons un cadre d’apprentissage multi-exemples (MIL, Multiple Instance Learning) pouvant être entraîné de manière end-to-end à partir d’images d’entraînement étiquetées au niveau de l’image. Pour chaque proposition, ce cadre MIL calcule simultanément des distributions de probabilité et des caractéristiques sémantiques sensibles aux catégories, permettant ainsi de construire un grand graphe non orienté. La catégorie « fond » est également incluse dans ce graphe afin d’éliminer les nombreuses propositions d’objets bruitées. Un découpage multi-voies optimal de ce graphe permet alors d’attribuer une étiquette de catégorie fiable à chaque proposition. Les propositions débruitées, enrichies d’étiquettes de catégorie, peuvent être considérées comme une segmentation d’instances pseudo-étiquetée des images d’entraînement, utilisée pour entraîner des modèles entièrement supervisés. L’approche proposée atteint des performances de pointe pour la segmentation d’instances faiblement supervisée ainsi que pour la segmentation sémantique.