HyperAIHyperAI
il y a 17 jours

MaskConver : Repenser le modèle de convolution pur pour la segmentation panoptique

Abdullah Rashwan, Jiageng Zhang, Ali Taalimi, Fan Yang, Xingyi Zhou, Chaochao Yan, Liang-Chieh Chen, Yeqing Li
MaskConver : Repenser le modèle de convolution pur pour la segmentation panoptique
Résumé

Ces dernières années, les modèles fondés sur l’architecture Transformer ont dominé la segmentation panoptique grâce à leurs puissantes capacités de modélisation ainsi qu’à leur représentation unifiée des classes sémantiques et instancielles sous forme de masques binaires globaux. Dans cet article, nous reprenons l’étude des modèles purement convolutifs et proposons une nouvelle architecture panoptique nommée MaskConver. MaskConver vise à unifier pleinement la représentation des « choses » et des « trucs » en prédisant leurs centres. Pour ce faire, elle introduit un module léger d’embedding de classes capable de lever les ambiguïtés lorsque plusieurs centres coexistent au même emplacement. Par ailleurs, notre étude met en évidence l’importance cruciale de la conception du décodeur pour garantir que le modèle dispose d’un contexte suffisant afin d’assurer une détection et une segmentation précises. Nous proposons donc un décodeur puissant, basé sur ConvNeXt-UNet, qui permet de combler l’écart de performance entre les modèles basés sur des convolutions et ceux fondés sur des Transformers. Avec un arrière-plan ResNet50, MaskConver atteint un score PQ de 53,6 % sur l’ensemble de validation COCO panoptique, surpassant ainsi le modèle convolutif moderne Panoptic FCN de 9,3 %, ainsi que des modèles basés sur Transformer tels que Mask2Former (+1,7 % PQ) et kMaX-DeepLab (+0,6 % PQ). De plus, avec un arrière-plan MobileNet, MaskConver atteint un PQ de 37,2 %, dépassant Panoptic-DeepLab de +6,4 % sous les mêmes contraintes de FLOPs et de latence. Une version améliorée de MaskConver atteint même un PQ de 29,7 % tout en fonctionnant en temps réel sur les dispositifs mobiles. Le code source et les poids du modèle seront rendus accessibles au public.