Segmentation Transformer : Représentations contextuelles objet pour la segmentation sémantique

Dans cet article, nous abordons le problème de la segmentation sémantique en mettant l’accent sur la stratégie d’agrégation du contexte. Notre motivation repose sur le fait que l’étiquette d’un pixel correspond à la catégorie de l’objet auquel ce pixel appartient. Nous proposons une approche simple mais efficace, nommée représentations contextuelles par objet, qui caractérise chaque pixel en exploitant la représentation de la classe d’objet correspondante. Premièrement, nous apprenons les régions objets sous la supervision de la segmentation de référence. Deuxièmement, nous calculons la représentation de la région objet en agrégant les représentations des pixels situés dans cette région. Enfin, nous évaluons la similarité entre la représentation de chaque pixel et celle de chaque région objet, puis enrichissons la représentation de chaque pixel par une représentation contextuelle par objet, obtenue comme une agrégation pondérée de toutes les représentations de régions objets en fonction de leurs relations avec le pixel. Nous démontrons empiriquement que l’approche proposée atteint des performances compétitives sur plusieurs benchmarks exigeants de la segmentation sémantique : Cityscapes, ADE20K, LIP, PASCAL-Context et COCO-Stuff. Notre soumission « HRNet + OCR + SegFix » a obtenu la première place au classement de Cityscapes au moment de la soumission. Le code est disponible à l’adresse : https://git.io/openseg et https://git.io/HRNet.OCR. Nous reformulons le schéma des représentations contextuelles par objet dans le cadre d’un modèle encodeur-décodeur à base de Transformer. Les détails sont présentés dans la Section 3.3.