HyperAIHyperAI
il y a 2 mois

Panoptic-PartFormer : Apprendre un modèle unifié pour la segmentation panoptique des parties

Xiangtai Li; Shilin Xu; Yibo Yang; Guangliang Cheng; Yunhai Tong; Dacheng Tao
Panoptic-PartFormer : Apprendre un modèle unifié pour la segmentation panoptique des parties
Résumé

Le segmentateur panoptique de parties (Panoptic Part Segmentation, PPS) vise à unifier le segmentateur panoptique et le segmentateur de parties en une seule tâche. Les travaux précédents utilisaient principalement des approches séparées pour traiter individuellement les prédictions d'objets, de matière et de parties, sans effectuer aucune opération commune ni association de tâches. Dans ce travail, nous visons à unifier ces tâches au niveau architectural, en concevant la première méthode unifiée et bout-en-bout nommée Panoptic-PartFormer. Plus précisément, inspirés par les récentes avancées dans les Transformers visuels, nous modélisons les objets, la matière et les parties comme des requêtes d'objets et apprenons directement à optimiser les trois prédictions comme un problème de prédiction et de classification de masques unifiés. Nous concevons un décodeur décorrélé pour générer respectivement les caractéristiques des parties et celles des objets/matière. Ensuite, nous proposons d'utiliser toutes les requêtes et leurs caractéristiques correspondantes pour effectuer une inférence conjointe et itérative. Le masque final peut être obtenu par produit intérieur entre les requêtes et leurs caractéristiques correspondantes. Des études abondantes d'analyse et d'élimination progressive (ablation) prouvent l'efficacité de notre cadre. Notre Panoptic-PartFormer atteint de nouveaux résultats d'état de l'art sur les ensembles de données PPS Cityscapes et PPS Pascal Context avec une réduction d'au moins 70% du nombre d'opérations en gigaflops (GFlops) et 50% du nombre de paramètres. En particulier, nous obtenons une amélioration relative de 3,4% avec le squelette ResNet50 et une amélioration de 10% après l'adoption du Swin Transformer sur l'ensemble de données PPS Pascal Context. À notre connaissance, nous sommes les premiers à résoudre le problème PPS grâce à \textit{un modèle transformer unifié et bout-en-bout}. Étant donné son efficacité et sa simplicité conceptuelle, nous espérons que notre Panoptic-PartFormer puisse servir de bonne base de référence et faciliter la recherche future unifiée pour le PPS. Notre code source et nos modèles sont disponibles sur https://github.com/lxtGH/Panoptic-PartFormer.

Panoptic-PartFormer : Apprendre un modèle unifié pour la segmentation panoptique des parties | Articles de recherche récents | HyperAI