Réseau de segmentation sémantique faiblement supervisé avec croissance de région à grainage profond

Cet article étudie le problème de l’apprentissage de réseaux de segmentation sémantique d’images en ne s’appuyant que sur des étiquettes au niveau d’image comme supervision, un enjeu crucial car il peut réduire considérablement les efforts d’annotation humaine. Les méthodes les plus récentes et les plus performantes dans ce domaine commencent par estimer, à l’aide d’un réseau de classification profond, des régions rares et discriminantes pour chaque classe d’objet, puis entraînent un réseau de segmentation sémantique en utilisant ces régions discriminantes comme étiquettes de supervision. Inspirés par les méthodes traditionnelles de segmentation d’image basées sur la croissance de régions amorcées (seeded region growing), nous proposons d’entraîner un réseau de segmentation sémantique en partant des régions discriminantes, puis en augmentant progressivement la supervision au niveau des pixels grâce à une croissance de régions amorcées. Le module de croissance de régions amorcées est intégré dans un réseau de segmentation profond et peut tirer parti des caractéristiques profondes. Contrairement aux réseaux profonds classiques qui reposent sur des étiquettes fixes ou statiques, le réseau faiblement supervisé proposé génère de nouvelles étiquettes à partir de l’information contextuelle présente dans l’image. La méthode proposée surpasse significativement les approches de segmentation sémantique faiblement supervisées utilisant des étiquettes statiques, atteignant ainsi un niveau d’état de l’art, avec un score mIoU de 63,2 % sur le jeu de test PASCAL VOC 2012 et de 26,0 % sur le jeu de données COCO.