Détection et segmentation simultanées

Nous visons à détecter toutes les instances d'une catégorie dans une image et, pour chaque instance, à marquer les pixels qui lui appartiennent. Nous appelons cette tâche la Détection et le Segmentation Simultanées (SDS). Contrairement à la détection classique de boîtes englobantes, l'SDS nécessite une segmentation et pas seulement une boîte. Contrairement à la segmentation sémantique classique, nous exigeons des instances d'objets individuels. Nous nous appuyons sur des travaux récents qui utilisent des réseaux neuronaux convolutifs pour classifier des propositions de régions indépendantes de la catégorie (R-CNN [16]), en introduisant une architecture novatrice adaptée à l'SDS. Nous utilisons ensuite des prédictions figure-fond spécifiques à la catégorie, du haut vers le bas, pour affiner nos propositions du bas vers le haut. Nous montrons une amélioration de 7 points (16% relatif) par rapport à nos lignes de base en matière d'SDS, une amélioration de 5 points (10% relatif) par rapport aux méthodes les plus avancées en segmentation sémantique, et des performances au niveau de l'état de l'art en détection d'objets. Enfin, nous fournissons des outils diagnostiques qui décomposent les performances et indiquent des orientations pour les travaux futurs.