HyperAIHyperAI
il y a 7 jours

Mask DINO : Vers un cadre fondé sur Transformer unifié pour la détection et la segmentation d'objets

Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang, Lionel M. Ni, Heung-Yeung Shum
Mask DINO : Vers un cadre fondé sur Transformer unifié pour la détection et la segmentation d'objets
Résumé

Dans cet article, nous présentons Mask DINO, un cadre unifié pour la détection et la segmentation d'objets. Mask DINO étend DINO (DETR avec des boîtes d'ancrage débruitées améliorées) en ajoutant une branche de prédiction de masques, qui prend en charge toutes les tâches de segmentation d'images (instance, panoptique et sémantique). Il exploite les embeddings de requête issus de DINO pour effectuer un produit scalaire avec une carte d'embeddings pixel à haute résolution afin de prédire un ensemble de masques binaires. Certains composants clés de DINO sont étendus pour la segmentation grâce à une architecture partagée et un processus d'entraînement commun. Mask DINO est simple, efficace et évolutif, et peut tirer parti de jeux de données volumineux conjoints pour la détection et la segmentation. Nos expériences montrent que Mask DINO surpasse de manière significative toutes les méthodes spécialisées de segmentation existantes, tant avec un squelette ResNet-50 qu'avec un modèle préentraîné utilisant un squelette SwinL. Notamment, Mask DINO établit les meilleurs résultats à ce jour en segmentation d'instance (54,5 AP sur COCO), en segmentation panoptique (59,4 PQ sur COCO) et en segmentation sémantique (60,8 mIoU sur ADE20K) parmi les modèles comptant moins d'un milliard de paramètres. Le code est disponible à l'adresse suivante : \url{https://github.com/IDEACVR/MaskDINO}.

Mask DINO : Vers un cadre fondé sur Transformer unifié pour la détection et la segmentation d'objets | Articles de recherche récents | HyperAI