HyperAIHyperAI

Command Palette

Search for a command to run...

MaskConver : Repenser le modèle de convolution pur pour la segmentation panoptique

Abdullah Rashwan Jiageng Zhang Ali Taalimi Fan Yang Xingyi Zhou Chaochao Yan Liang-Chieh Chen Yeqing Li

Résumé

Ces dernières années, les modèles fondés sur l’architecture Transformer ont dominé la segmentation panoptique grâce à leurs puissantes capacités de modélisation ainsi qu’à leur représentation unifiée des classes sémantiques et instancielles sous forme de masques binaires globaux. Dans cet article, nous reprenons l’étude des modèles purement convolutifs et proposons une nouvelle architecture panoptique nommée MaskConver. MaskConver vise à unifier pleinement la représentation des « choses » et des « trucs » en prédisant leurs centres. Pour ce faire, elle introduit un module léger d’embedding de classes capable de lever les ambiguïtés lorsque plusieurs centres coexistent au même emplacement. Par ailleurs, notre étude met en évidence l’importance cruciale de la conception du décodeur pour garantir que le modèle dispose d’un contexte suffisant afin d’assurer une détection et une segmentation précises. Nous proposons donc un décodeur puissant, basé sur ConvNeXt-UNet, qui permet de combler l’écart de performance entre les modèles basés sur des convolutions et ceux fondés sur des Transformers. Avec un arrière-plan ResNet50, MaskConver atteint un score PQ de 53,6 % sur l’ensemble de validation COCO panoptique, surpassant ainsi le modèle convolutif moderne Panoptic FCN de 9,3 %, ainsi que des modèles basés sur Transformer tels que Mask2Former (+1,7 % PQ) et kMaX-DeepLab (+0,6 % PQ). De plus, avec un arrière-plan MobileNet, MaskConver atteint un PQ de 37,2 %, dépassant Panoptic-DeepLab de +6,4 % sous les mêmes contraintes de FLOPs et de latence. Une version améliorée de MaskConver atteint même un PQ de 29,7 % tout en fonctionnant en temps réel sur les dispositifs mobiles. Le code source et les poids du modèle seront rendus accessibles au public.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MaskConver : Repenser le modèle de convolution pur pour la segmentation panoptique | Articles | HyperAI