HyperAIHyperAI

Command Palette

Search for a command to run...

Repenser la segmentation sémantique du point de vue séquentiel-à-séquentiel avec des Transformers

Résumé

La plupart des méthodes récentes de segmentation sémantique adoptent un réseau entièrement convolutif (FCN) basé sur une architecture encodeur-décodeur. L’encodeur réduit progressivement la résolution spatiale tout en apprenant des concepts visuels de plus en plus abstraits et sémantiques, grâce à des champs réceptifs plus grands. Étant donné que le modèle de contexte est crucial pour la segmentation, les travaux les plus récents se sont concentrés sur l’agrandissement du champ réceptif, soit par l’intermédiaire de convolutions dilatées (atrous), soit en intégrant des modules d’attention. Toutefois, l’architecture FCN basée sur encodeur-décodeur reste inchangée. Dans cet article, nous proposons une perspective alternative en traitant la segmentation sémantique comme une tâche de prédiction séquence-à-séquence. Plus précisément, nous utilisons un transformer pur (c’est-à-dire sans convolution ni réduction de résolution) pour encoder une image en une séquence de patches. Grâce à la modélisation du contexte global à chaque couche du transformer, cet encodeur peut être combiné à un décodeur simple afin de constituer un modèle de segmentation puissant, appelé SEgmentation TRansformer (SETR). Des expérimentations étendues montrent que SETR atteint un nouveau record sur ADE20K (50,28 % de mIoU), sur Pascal Context (55,83 % de mIoU) et des résultats compétitifs sur Cityscapes. En particulier, nous obtenons la première place sur le classement du serveur de test très compétitif d’ADE20K le jour de la soumission.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Repenser la segmentation sémantique du point de vue séquentiel-à-séquentiel avec des Transformers | Articles | HyperAI