HyperAIHyperAI

Command Palette

Search for a command to run...

WeakTr : Exploration du Vision Transformer simple pour la segmentation sémantique à supervision faible

Lianghui Zhu Yingyue Li Jiemin Fang Yan Liu Hao Xin Wenyu Liu Xinggang Wang

Résumé

Ce papier explore les propriétés du Vision Transformer (ViT) classique pour la segmentation sémantique faiblement supervisée (WSSS). La carte d’activation de classe (CAM) joue un rôle fondamental dans la compréhension d’un réseau de classification et dans le lancement de la tâche WSSS. Nous observons que différentes têtes d’attention du ViT se concentrent sur des régions différentes de l’image. Par conséquent, nous proposons une méthode basée sur des poids pour estimer de manière end-to-end l’importance des têtes d’attention, tout en fusionnant de manière adaptative les cartes d’attention auto-référentes afin d’obtenir des résultats de CAM de haute qualité, caractérisés par une meilleure intégrité des objets. En outre, nous introduisons un décodeur à découpage de gradients basé sur ViT, permettant une reformation en ligne à l’aide des résultats de CAM, afin de compléter la tâche WSSS. Nous appelons ce cadre d’apprentissage faiblement supervisé basé sur un Transformer simple WeakTr. Ce modèle atteint des performances de pointe sur les benchmarks standards : 78,4 % de mIoU sur l’ensemble de validation de PASCAL VOC 2012 et 50,3 % de mIoU sur l’ensemble de validation de COCO 2014. Le code est disponible à l’adresse suivante : https://github.com/hustvl/WeakTr.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp