HyperAIHyperAI
il y a 17 jours

Séparation de représentation pour la segmentation sémantique avec des Transformers visuels

Yuanduo Hong, Huihui Pan, Weichao Sun, Xinghu Yu, Huijun Gao
Séparation de représentation pour la segmentation sémantique avec des Transformers visuels
Résumé

Les transformateurs d’images (Vision Transformers, ViTs), qui représentent une image sous la forme d’une séquence de patches, introduisent de nouveaux paradigmes pour la segmentation sémantique. Nous proposons un cadre efficace basé sur la séparation des représentations au niveau local des patches et au niveau global des régions, spécifiquement conçu pour la segmentation sémantique avec les ViTs. Ce cadre vise à atténuer le phénomène caractéristique d’« over-smoothness » (lissage excessif) observé dans les ViTs pour cette tâche, s’écartant ainsi des paradigmes actuels de modélisation du contexte ainsi que de la majorité des méthodes existantes qui renforcent principalement l’avantage des mécanismes d’attention. Nous introduisons tout d’abord un réseau à deux voies découplées, dans lequel une deuxième voie renforce et transmet vers le bas les différences locales entre patches, complémentaires aux représentations globales fournies par les transformateurs. Ensuite, nous proposons un module de séparation adaptatif spatialement pour obtenir des représentations profondes davantage séparées, ainsi qu’une attention croisée discriminative, qui produit des représentations régionales plus discriminantes grâce à des supervision auxiliaires innovantes. Les résultats obtenus par notre méthode sont impressionnants : 1) en combinant des ViTs plats à grande échelle, nos approches atteignent de nouveaux états de l’art sur cinq benchmarks largement utilisés ; 2) en utilisant des ViTs pré-entraînés avec masquage, nous obtenons un mIoU de 68,9 % sur Pascal Context, établissant un nouveau record ; 3) les ViTs pyramidaux intégrant le réseau à deux voies découplées surpassent même les ViTs à haute résolution soigneusement conçus sur Cityscapes ; 4) les représentations améliorées par notre cadre présentent une excellente transférabilité sur des images altérées par des perturbations naturelles. Les codes seront publiés publiquement.

Séparation de représentation pour la segmentation sémantique avec des Transformers visuels | Articles de recherche récents | HyperAI