MaX-DeepLab : Segmentations panoramique en bout-en-bout avec des transformateurs de masques

Nous présentons MaX-DeepLab, le premier modèle end-to-end pour la segmentation panoptique. Notre approche simplifie la chaîne actuelle, qui repose fortement sur des sous-tâches proxy et des composants conçus à la main, tels que la détection de boîtes englobantes, la suppression de non-maximum, la fusion des objets (things) et des arrière-plans (stuff), etc. Bien que ces sous-tâches soient traitées par des experts spécialisés, elles échouent à résoudre de manière complète la tâche cible. En revanche, notre MaX-DeepLab prédit directement des masques étiquetés par classe à l’aide d’un transformateur de masques, et est entraîné grâce à une fonction de perte inspirée par la qualité panoptique, via un appariement biparti. Le transformateur de masques utilise une architecture à double voie, qui introduit une voie de mémoire globale en complément de la voie CNN, permettant une communication directe avec n’importe quelle couche CNN. En conséquence, MaX-DeepLab obtient une amélioration significative de 7,1 % en PQ (Panoptic Quality) dans le régime sans boîtes sur le dataset exigeant COCO, en fermant pour la première fois l’écart entre les méthodes basées sur les boîtes et celles sans boîtes. Une variante légère de MaX-DeepLab améliore de 3,0 % le PQ par rapport à DETR, avec un nombre de paramètres et de M-Adds similaires. En outre, MaX-DeepLab, sans augmentation à l’étape de test, atteint un nouveau record mondial de 51,3 % de PQ sur l’ensemble de test-dev COCO. Le code est disponible à l’adresse suivante : https://github.com/google-research/deeplab2.