La classification par pixel n'est pas tout ce dont vous avez besoin pour la segmentation sémantique

Les approches modernes traitent généralement la segmentation sémantique comme une tâche de classification par pixel, tandis que la segmentation au niveau des instances est abordée à l’aide d’une classification de masques alternative. Notre observation clé : la classification de masques est suffisamment générale pour résoudre à la fois les tâches de segmentation sémantique et instancelle de manière unifiée, en utilisant exactement le même modèle, la même fonction de perte et la même procédure d’entraînement. À la suite de cette observation, nous proposons MaskFormer, un modèle simple basé sur la classification de masques, qui prédit un ensemble de masques binaires, chacun associé à une prédiction unique de classe globale. Globalement, la méthode proposée, fondée sur la classification de masques, simplifie le paysage des approches efficaces pour les tâches de segmentation sémantique et panoptique, et obtient de très bons résultats expérimentaux. En particulier, nous observons que MaskFormer surpasse les modèles de base basés sur la classification par pixel lorsque le nombre de classes est élevé. Notre approche fondée sur la classification de masques dépasse à la fois les modèles actuels d’état de l’art en segmentation sémantique (55,6 mIoU sur ADE20K) et en segmentation panoptique (52,7 PQ sur COCO).