HyperAIHyperAI

Command Palette

Search for a command to run...

Masque d'attention et Mask Transformer pour la segmentation universelle d'images

Bowen Cheng; Ishan Misra; Alexander G. Schwing; Alexander Kirillov; Rohit Girdhar

Résumé

La segmentation d'images consiste à regrouper des pixels selon différentes sémantiques, par exemple l'appartenance à une catégorie ou à une instance, où chaque choix de sémantique définit une tâche. Bien que seules les sémantiques de chaque tâche diffèrent, la recherche actuelle se concentre sur la conception d'architectures spécialisées pour chaque tâche. Nous présentons le Masked-attention Mask Transformer (Mask2Former), une nouvelle architecture capable de traiter n'importe quelle tâche de segmentation d'images (panoptique, par instance ou sémantique). Ses composants clés incluent l'attention masquée, qui extrait des caractéristiques localisées en restreignant l'attention croisée aux régions de masque prédites. Outre la réduction des efforts de recherche d'au moins trois fois, elle surpasse les meilleures architectures spécialisées avec une marge significative sur quatre jeux de données populaires. Notamment, Mask2Former établit un nouveau niveau d'excellence pour la segmentation panoptique (57,8 PQ sur COCO), la segmentation par instance (50,1 AP sur COCO) et la segmentation sémantique (57,7 mIoU sur ADE20K).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp