Segmentation sémantique basée sur les régions avec une formation de bout en bout

Nous proposons une nouvelle méthode pour la segmentation sémantique, tâche consistant à étiqueter chaque pixel d'une image avec une classe sémantique. Notre méthode combine les avantages des deux principaux paradigmes concurrents. Les méthodes basées sur la classification de régions offrent un support spatial approprié pour les mesures d'apparence, mais fonctionnent généralement en deux étapes distinctes, aucune ne visant spécifiquement la performance d'étiquetage des pixels à la fin du pipeline. Les méthodes entièrement convolutionnelles plus récentes sont capables d'un entraînement de bout en bout pour l'étiquetage final des pixels, mais recourent à des patchs fixes comme support spatial. Nous montrons comment modifier les approches modernes basées sur les régions pour permettre un entraînement de bout en bout pour la segmentation sémantique. Cela est réalisé grâce à une couche différentiable de région vers pixel et à une couche de regroupement différentiable de régions d'intérêt (Region-of-Interest) librement formée. Notre méthode améliore l'état de l'art en termes de précision moyenne par classe avec 64,0 % sur SIFT Flow et 49,9 % sur PASCAL Context, et est particulièrement précise aux frontières des objets.