Repenser la segmentation sémantique du point de vue séquentiel-à-séquentiel avec des Transformers

La plupart des méthodes récentes de segmentation sémantique adoptent un réseau entièrement convolutif (FCN) basé sur une architecture encodeur-décodeur. L’encodeur réduit progressivement la résolution spatiale tout en apprenant des concepts visuels de plus en plus abstraits et sémantiques, grâce à des champs réceptifs plus grands. Étant donné que le modèle de contexte est crucial pour la segmentation, les travaux les plus récents se sont concentrés sur l’agrandissement du champ réceptif, soit par l’intermédiaire de convolutions dilatées (atrous), soit en intégrant des modules d’attention. Toutefois, l’architecture FCN basée sur encodeur-décodeur reste inchangée. Dans cet article, nous proposons une perspective alternative en traitant la segmentation sémantique comme une tâche de prédiction séquence-à-séquence. Plus précisément, nous utilisons un transformer pur (c’est-à-dire sans convolution ni réduction de résolution) pour encoder une image en une séquence de patches. Grâce à la modélisation du contexte global à chaque couche du transformer, cet encodeur peut être combiné à un décodeur simple afin de constituer un modèle de segmentation puissant, appelé SEgmentation TRansformer (SETR). Des expérimentations étendues montrent que SETR atteint un nouveau record sur ADE20K (50,28 % de mIoU), sur Pascal Context (55,83 % de mIoU) et des résultats compétitifs sur Cityscapes. En particulier, nous obtenons la première place sur le classement du serveur de test très compétitif d’ADE20K le jour de la soumission.