Segmentation sémantique sensible aux instances par cascades de réseaux multi-tâches

Les recherches en segmentation sémantique ont récemment connu des progrès rapides, mais de nombreuses méthodes de pointe ne parviennent pas à identifier les instances d'objets. Dans cet article, nous présentons les Cascades de Réseaux Multi-tâches pour la segmentation sémantique avec prise en compte des instances. Notre modèle est composé de trois réseaux, chacun chargé respectivement de différencier les instances, d'estimer les masques et de catégoriser les objets. Ces réseaux forment une structure en cascade et sont conçus pour partager leurs caractéristiques convolutives. Nous développons un algorithme pour l'entraînement non trivial de bout en bout de cette structure causale et en cascade. Notre solution est un cadre d'entraînement propre et mono-étape qui peut être généralisé à des cascades ayant plus d'étapes. Nous démontrons une précision de segmentation sémantique avec prise en compte des instances sans égale sur PASCAL VOC. Parallèlement, notre méthode ne prend que 360 ms pour tester une image à l'aide du VGG-16, ce qui est deux ordres de grandeur plus rapide que les systèmes précédents pour ce problème ardu. En produit secondaire, notre méthode obtient également des résultats convaincants en détection d'objets qui surpassent les systèmes concurrents Fast/Faster R-CNN.La méthode décrite dans cet article constitue la base de nos soumissions au concours de segmentation MS COCO 2015, où nous avons remporté le premier prix.