HyperAIHyperAI

Command Palette

Search for a command to run...

SegViT : Segmentation sémantique avec des Transformers de vision simples

Bowen Zhang Zhi Tian Quan Tang Xiangxiang Chu Xiaolin Wei Chunhua Shen Yifan Liu

Résumé

Nous explorons la capacité des Vision Transformers (ViTs) simples pour la segmentation sémantique et proposons SegVit. Les réseaux de segmentation basés sur les ViTs précédents apprennent généralement une représentation au niveau des pixels à partir de la sortie du ViT. À la différence, nous exploitons le composant fondamental — le mécanisme d’attention — pour générer des masques destinés à la segmentation sémantique. Plus précisément, nous proposons le module Attention-to-Mask (ATM), dans lequel les cartes de similarité entre un ensemble de tokens apprenables par classe et les cartes de caractéristiques spatiales sont transformées en masques de segmentation. Les expérimentations montrent que SegVit, utilisant le module ATM, surpasser ses prédécesseurs basés sur un ViT simple sur le jeu de données ADE20K, tout en atteignant de nouvelles performances de pointe sur les jeux de données COCO-Stuff-10K et PASCAL-Context. En outre, afin de réduire le coût computationnel du noyau ViT, nous proposons une sous-échantillonnage basé sur les requêtes (QD) et une suréchantillonnage basé sur les requêtes (QU), permettant de construire une architecture réduite, dite « Shrunk ». Grâce à cette structure réduite, le modèle peut économiser jusqu’à 40 % des calculs tout en maintenant des performances compétitives.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp