DeeperLab : Analyseur d'images en un seul passage

Nous présentons une approche bottom-up en un seul passage pour le parsing d'images entières. Le parsing d'images entières, également connu sous le nom de Panoptic Segmentation, généralise les tâches de segmentation sémantique pour les classes de « stuff » et de segmentation d'instances pour les classes de « thing », attribuant des étiquettes sémantiques et d'instances à chaque pixel d'une image. Les approches récentes du parsing d'images entières utilisent généralement des modules distincts et autonomes pour les tâches de segmentation sémantique et de segmentation d'instances, nécessitant plusieurs passes d'inférence. En revanche, l'analyseur d'image DeeperLab proposé effectue le parsing d'images entières avec une approche convolutive complète beaucoup plus simple, abordant conjointement les tâches de segmentation sémantique et de segmentation d'instances en un seul passage, ce qui résulte en un système plus fluide et mieux adapté au traitement rapide. Pour l'évaluation quantitative, nous utilisons à la fois la métrique Panoptic Quality (PQ) basée sur les instances et la métrique Parsing Covering (PC) basée sur les régions proposée, qui capture mieux la qualité du parsing d'images sur les classes de « stuff » et les instances d'objets plus grands. Nous rapportons des résultats expérimentaux sur le jeu de données Mapillary Vistas difficile, dans lequel notre modèle unique atteint 31,95 % (val) / 31,6 % PQ (test) et 55,26 % PC (val) avec une vitesse de 3 images par seconde (ips) sur GPU ou presque en temps réel (22,6 ips sur GPU) avec une précision réduite.