Upsampling guidé par la localisation pour la segmentation sémantique

De nombreux objectifs d’apprentissage réussis, tels que la minimisation de la perte de Dice et de la perte d’entropie croisée, ont permis des progrès sans précédent dans les tâches de segmentation. Au-delà de ces métriques sémantiques, ce papier vise à introduire une supervision de localisation dans la segmentation sémantique. À partir de cette idée, nous proposons une interpolation sensible à la localisation (LaU), qui affine de manière adaptative les coordonnées d’interpolation à l’aide de décalages entraînables. Des pertes sensibles à la localisation sont ensuite définies en incitant les pixels à se déplacer vers des positions bien classifiées. Le module LaU combine prédiction de décalage et interpolation, et est entraîné de manière end-to-end afin de générer, de manière fine à grossière, un score de confiance à chaque position. Guidé par ces pertes sensibles à la localisation, le nouveau module peut remplacer de manière plug-and-play son homologue classique (par exemple, l’interpolation bilinéaire) dans les approches d’encodeur-décodage de pointe, permettant ainsi d’améliorer davantage leurs performances. Des expériences étendues confirment une amélioration cohérente par rapport aux méthodes de pointe sur des jeux de données standards. Notre code est disponible à l’adresse suivante : https://github.com/HolmesShuan/Location-aware-Upsampling-for-Semantic-Segmentation