HyperAIHyperAI
il y a 17 jours

Transformateur de vision à haute résolution à multiples échelles pour la segmentation sémantique

Jiaqi Gu, Hyoukjun Kwon, Dilin Wang, Wei Ye, Meng Li, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra, David Z. Pan
Transformateur de vision à haute résolution à multiples échelles pour la segmentation sémantique
Résumé

Les Vision Transformers (ViTs) se sont imposés comme des modèles performants sur les tâches de vision par ordinateur, dépassant largement les modèles basés sur les réseaux de neurones convolutifs (CNN). Toutefois, les ViTs sont principalement conçus pour la classification d’images, produisant des représentations à faible résolution à une seule échelle, ce qui rend difficile leur application aux tâches de prédiction dense, telles que la segmentation sémantique. Ainsi, nous proposons HRViT, une architecture qui améliore les ViTs afin qu’ils puissent apprendre des représentations multi-échelles riches en sémantique et précises spatialement, en intégrant des architectures multi-branche à haute résolution aux ViTs. Nous équilibrions la performance et l’efficacité de HRViT grâce à diverses techniques d’optimisation conjointe des branches et des blocs. Plus précisément, nous explorons des conceptions hétérogènes des branches, réduisons la redondance dans les couches linéaires, et renforçons l’expressivité du bloc d’attention. Ces approches permettent à HRViT de repousser la frontière de Pareto entre performance et efficacité sur la segmentation sémantique à un nouveau niveau, comme le démontrent nos résultats d’évaluation sur les jeux de données ADE20K et Cityscapes. HRViT atteint un mIoU de 50,20 % sur ADE20K et 83,16 % sur Cityscapes, surpassant les architectures de pointe MiT et CSWin avec une amélioration moyenne de +1,78 mIoU, une réduction de 28 % du nombre de paramètres et une diminution de 21 % des FLOPs, illustrant ainsi le potentiel de HRViT en tant que squelette visuel robuste pour la segmentation sémantique.

Transformateur de vision à haute résolution à multiples échelles pour la segmentation sémantique | Articles de recherche récents | HyperAI