Réseau à champs réceptifs multiples pour la segmentation sémantique

La segmentation sémantique est l'une des tâches clés en vision par ordinateur, consistant à attribuer une étiquette de catégorie à chaque pixel d'une image. Malgré les progrès significatifs réalisés récemment, la plupart des méthodes existantes souffrent encore de deux problèmes difficiles : 1) la taille des objets et des éléments (stuff) présents dans une image peut varier considérablement, ce qui nécessite l'intégration de caractéristiques multi-échelles dans les réseaux entièrement convolutifs (FCN) ; 2) les pixels situés près ou aux frontières des objets ou des éléments sont difficiles à classifier en raison de la faiblesse intrinsèque des réseaux convolutifs. Pour résoudre le premier problème, nous proposons un nouveau module à champs réceptifs multiplés (MRFM), explicitement conçu pour intégrer des caractéristiques à plusieurs échelles. Pour le second problème, nous avons conçu une fonction de perte sensible aux bords, efficace pour distinguer précisément les frontières des objets ou des éléments. Grâce à ces deux innovations, notre réseau à champs réceptifs multiplés atteint de nouveaux résultats d'état de l'art sur deux jeux de données largement utilisés pour la segmentation sémantique. Plus précisément, nous obtenons un IoU moyen de 83,0 sur le jeu de données Cityscapes et un IoU moyen de 88,4 sur le jeu de données Pascal VOC2012.