HyperAIHyperAI
il y a 17 jours

Panoptic SegFormer : Une exploration approfondie de la segmentation panoptique à l’aide des Transformers

Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu
Panoptic SegFormer : Une exploration approfondie de la segmentation panoptique à l’aide des Transformers
Résumé

La segmentation panoptique repose sur une combinaison de segmentation sémantique et de segmentation d'instances, où le contenu d'une image est divisé en deux catégories : les « choses » (objets comptables) et les « trucs » (matériaux ou arrière-plans non comptables). Nous présentons Panoptic SegFormer, un cadre général pour la segmentation panoptique basé sur des transformateurs. Ce cadre intègre trois composants innovants : un décodeur de masques profondément supervisé et efficace, une stratégie de découplage des requêtes, ainsi qu'une méthode améliorée de post-traitement. Nous utilisons également Deformable DETR pour traiter efficacement les caractéristiques multi-échelles, une version rapide et performante de DETR. Plus précisément, nous supervisons les modules d'attention du décodeur de manière progressive par couche. Cette stratégie de supervision profonde permet aux modules d'attention de se concentrer rapidement sur des régions sémantiques pertinentes, améliorant ainsi les performances tout en réduisant de moitié le nombre d'époques d'entraînement par rapport à Deformable DETR. Notre stratégie de découplage des requêtes sépare les rôles du jeu de requêtes, évitant ainsi les interférences mutuelles entre les « choses » et les « trucs ». En outre, notre méthode de post-traitement améliore les performances sans coût supplémentaire en tenant compte conjointement de la qualité de classification et de celle de segmentation afin de résoudre les chevauchements conflictuels des masques. Notre approche améliore l’exactitude de 6,2 % en PQ par rapport au modèle de référence DETR. Panoptic SegFormer atteint des résultats de pointe sur le jeu de test-dev de COCO avec un score PQ de 56,2 %. Il démontre également une robustesse supérieure en situation de zéro-shot par rapport aux méthodes existantes. Le code source est disponible à l’adresse suivante : \url{https://github.com/zhiqi-li/Panoptic-SegFormer}.