Segmentation panoptique faiblement supervisée et semi-supervisée

Nous présentons un modèle faiblement supervisé qui effectue simultanément la segmentation sémantique et la segmentation d'instances -- un problème particulièrement pertinent compte tenu du coût substantiel de l'annotation pixel par pixel pour ces tâches. Contrairement à de nombreuses approches populaires de segmentation d'instances basées sur des détecteurs d'objets, notre méthode ne prédit aucune instance chevauchante. De plus, nous sommes capables de segmenter à la fois les classes d'« objets » (thing) et les classes de « matière » (stuff), expliquant ainsi tous les pixels de l'image. Les classes d'« objets » sont faiblement supervisées avec des boîtes englobantes, tandis que les classes de « matière » le sont avec des balises au niveau de l'image. Nous obtenons des résultats d'état de l'art sur Pascal VOC, tant pour la supervision complète que pour la supervision faible (qui atteint environ 95 % des performances sous supervision complète). De plus, nous présentons les premiers résultats faiblement supervisés sur Cityscapes pour la segmentation sémantique et la segmentation d'instances. Enfin, nous utilisons notre cadre faiblement supervisé pour analyser la relation entre la qualité de l'annotation et les performances prédictives, ce qui est d'intérêt pour les créateurs de jeux de données.