HyperAIHyperAI
il y a 12 jours

MSDNet : Décodeur multi-échelle pour la segmentation sémantique à faibles exemples via une prototypation guidée par Transformer

Fateh, Amirreza, Mohammadi, Mohammad Reza, Motlagh, Mohammad Reza Jahed
MSDNet : Décodeur multi-échelle pour la segmentation sémantique à faibles exemples via une prototypation guidée par Transformer
Résumé

La segmentation sémantique à peu d'exemples (few-shot semantic segmentation) vise à segmenter des objets dans des images de requête à partir de seulement quelques exemples annotés. Toutefois, de nombreuses méthodes de pointe précédentes doivent soit ignorer des caractéristiques sémantiques locales complexes, soit souffrir d'une complexité computationnelle élevée. Pour relever ces défis, nous proposons un nouveau cadre de segmentation sémantique à peu d'exemples basé sur l'architecture Transformer. Notre approche introduit un décodeur transformer spatial ainsi qu'un module de génération de masques contextuels afin d'améliorer la compréhension des relations entre les images d'appui (support) et les images de requête. En outre, nous introduisons un décodeur multi-échelle pour affiner le masque de segmentation en intégrant hiérarchiquement des caractéristiques provenant de différentes résolutions. Par ailleurs, notre méthode intègre des caractéristiques globales issues des étapes intermédiaires de l'encodeur afin d'améliorer la compréhension contextuelle, tout en maintenant une structure légère pour réduire la complexité. Ce compromis entre performance et efficacité permet à notre méthode d'obtenir des résultats compétitifs sur des jeux de données standards tels que PASCAL-5^i et COCO-20^i, dans les configurations 1-shot et 5-shot. Notamment, notre modèle, composé de seulement 1,5 million de paramètres, démontre une performance compétitive tout en surmontant les limites des méthodologies existantes. https://github.com/amirrezafateh/MSDNet