SeMask : Transformers masqués sémantiquement pour la segmentation sémantique

L’ajustement fin (finetuning) d’un modèle préentraîné dans la partie encodeur d’un réseau de transformation d’images (image transformer) constitue l’approche classique pour la tâche de segmentation sémantique. Toutefois, une telle méthode ignore le contexte sémantique que l’image fournit durant l’étape d’encodage. Ce papier soutient que l’intégration de l’information sémantique de l’image dans les modèles préentraînés hiérarchiques basés sur les transformateurs, tout en procédant à l’ajustement fin, améliore considérablement les performances. Pour y parvenir, nous proposons SeMask, un cadre simple et efficace qui intègre l’information sémantique dans l’encodeur grâce à une opération d’attention sémantique. En outre, nous utilisons un décodeur léger durant l’entraînement afin de fournir une supervision aux cartes de priorité sémantique intermédiaires à chaque étape. Nos expérimentations démontrent que l’intégration de ces priorités sémantiques améliore les performances des encodeurs hiérarchiques établis, avec une augmentation marginale du nombre d’opérations flottantes (FLOPs). Nous fournissons une preuve empirique en intégrant SeMask dans les encodeurs Swin Transformer et Mix Transformer, couplés à différents décodeurs. Notre cadre atteint un nouveau record mondial de 58,25 % de mIoU sur le jeu de données ADE20K, ainsi qu’une amélioration de plus de 3 % en mIoU sur le jeu de données Cityscapes. Le code source et les points de contrôle sont disponibles publiquement à l’adresse suivante : https://github.com/Picsart-AI-Research/SeMask-Segmentation.