HyperAIHyperAI
il y a 17 jours

Segmentation sémantique minimaliste et à haute performance avec des Transformers de vision simples

Yuanduo Hong, Jue Wang, Weichao Sun, Huihui Pan
Segmentation sémantique minimaliste et à haute performance avec des Transformers de vision simples
Résumé

À la suite du Masked Image Modeling (MIM), une diversité de modèles Vision Transformer (ViT) simples et non hiérarchiques a été pré-entraînée sur de vastes jeux de données, ouvrant de nouvelles perspectives et offrant un potentiel significatif pour la segmentation sémantique. Les systèmes actuels de pointe intègrent de nombreuses biais inductifs et utilisent des décodesurs complexes. En s’inspirant des motivations initiales des ViT simples — simplicité et généralité —, nous explorons des systèmes hautement performants de type « minimaliste » dans ce contexte. Notre objectif principal est de proposer des bases simples et efficaces pour la segmentation sémantique pratique à l’aide de ViT simples. Plus précisément, nous étudions d’abord la faisabilité et la méthodologie permettant d’atteindre une haute performance en utilisant uniquement la carte de caractéristiques finale. À cette fin, nous introduisons PlainSeg, un modèle ne comprenant que trois couches de convolution 3×3, en plus des couches transformateur (soit encodeur, soit décodeur). Dans ce processus, nous mettons en évidence deux principes fondamentaux : (i) les caractéristiques à haute résolution sont cruciales pour une haute performance, même lorsque l’on utilise des techniques de rééchantillonnage simples ; et (ii) un décodeur transformateur mince nécessite un taux d’apprentissage bien plus élevé qu’un décodeur transformateur large. Sur cette base, nous présentons également PlainSeg-Hier, qui permet d’exploiter des caractéristiques hiérarchiques. Des expérimentations étendues sur quatre benchmarks populaires démontrent la haute performance et l’efficacité de nos méthodes. Elles peuvent également servir d’outils puissants pour évaluer la capacité de transfert des modèles de base en segmentation sémantique. Le code est disponible à l’adresse suivante : \url{https://github.com/ydhongHIT/PlainSeg}.

Segmentation sémantique minimaliste et à haute performance avec des Transformers de vision simples | Articles de recherche récents | HyperAI