HyperAIHyperAI
il y a 16 jours

SED : Un encodeur-décodeur simple pour la segmentation sémantique à vocabulaire ouvert

Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang
SED : Un encodeur-décodeur simple pour la segmentation sémantique à vocabulaire ouvert
Résumé

La segmentation sémantique à vocabulaire ouvert vise à classifier les pixels en différents groupes sémantiques à partir d’un ensemble ouvert de catégories. La plupart des méthodes existantes explorent l’utilisation de modèles vision-langage pré-entraînés, dont le point clé consiste à adapter un modèle à niveau d’image pour résoudre une tâche de segmentation à niveau de pixel. Dans cet article, nous proposons un modèle simple à architecture encodeur-décodeur, nommé SED, dédié à la segmentation sémantique à vocabulaire ouvert. Il repose sur une génération de carte de coût basée sur un encodeur hiérarchique, ainsi qu’un décodeur à fusion progressive avec rejet précoce des catégories. La génération de carte de coût basée sur un encodeur hiérarchique utilise une architecture hiérarchique, au lieu d’un transformateur simple, afin de prédire une carte de coût image-texte au niveau pixel. Contrairement au transformateur simple, l’architecture hiérarchique capture de manière plus efficace les informations spatiales locales et présente une complexité computationnelle linéaire par rapport à la taille d’entrée. Notre décodeur à fusion progressive adopte une structure haut-bas pour combiner la carte de coût et les cartes de caractéristiques issues de différents niveaux de l’encodeur. Afin d’accélérer la vitesse d’inférence, nous introduisons une stratégie de rejet précoce des catégories au sein du décodeur, permettant de rejeter précocement de nombreuses catégories absentes dès les premiers niveaux, ce qui permet une accélération maximale de 4,7 fois sans perte de précision. Des expériences sont menées sur plusieurs jeux de données de segmentation sémantique à vocabulaire ouvert, démontrant l’efficacité de notre méthode SED. En utilisant ConvNeXt-B, notre méthode atteint un score mIoU de 31,6 % sur ADE20K avec 150 catégories, à raison de 82 millisecondes par image sur une seule carte A6000. Nous mettrons le code à disposition à l’adresse suivante : \url{https://github.com/xb534/SED.git}.

SED : Un encodeur-décodeur simple pour la segmentation sémantique à vocabulaire ouvert | Articles de recherche récents | HyperAI