CascadePSP : Vers une segmentation sans tenir compte de la classe et à très haute résolution grâce au raffinement global et local

Les méthodes d’état de l’art en segmentation sémantique ont été presque exclusivement entraînées sur des images appartenant à une plage de résolution fixe. Ces méthodes produisent des résultats inexactes pour des images à très haute résolution, car l’interpolation bicubique appliquée aux résultats de segmentation à faible résolution ne permet pas de capturer adéquatement les détails de haute résolution le long des frontières des objets. Dans cet article, nous proposons une nouvelle approche pour traiter le problème de la segmentation à très haute résolution, sans avoir recours à aucune donnée d’entraînement à haute résolution. L’idée centrale réside dans notre réseau CascadePSP, qui affine et corrige les frontières locales chaque fois que cela est possible. Bien que notre réseau soit entraîné à partir de données de segmentation à faible résolution, notre méthode est applicable à toute résolution, y compris pour des images très hautes résolutions dépassant 4K. Nous présentons des études quantitatives et qualitatives sur différentes bases de données, démontrant que CascadePSP parvient à révéler des frontières de segmentation au niveau du pixel grâce à notre nouveau module de raffinement, sans nécessiter de finetuning. Par conséquent, notre méthode peut être considérée comme indépendante de la classe. Enfin, nous illustrons l’application de notre modèle à la segmentation multi-classes pour la compréhension de scènes.