Réseau de Parsage de Scène en Pyramide

L'analyse de scènes est un défi pour un vocabulaire ouvert non restreint et des scènes variées. Dans cet article, nous exploitons la capacité des informations de contexte global en utilisant une agrégation de contexte basée sur différentes régions grâce à notre module de poolage pyramidal, associé au réseau d'analyse de scènes pyramidal proposé (PSPNet). Notre représentation a priori globale est efficace pour produire des résultats de haute qualité dans la tâche d'analyse de scènes, tandis que le PSPNet fournit un cadre supérieur pour les tâches de prédiction au niveau des pixels. L'approche proposée atteint des performances d'état de l'art sur diverses bases de données. Elle a remporté le premier prix du défi d'analyse de scènes ImageNet 2016, du benchmark PASCAL VOC 2012 et du benchmark Cityscapes. Un seul PSPNet établit un nouveau record avec une précision mIoU de 85,4 % sur PASCAL VOC 2012 et une précision de 80,2 % sur Cityscapes.