HyperAIHyperAI
vor 17 Tagen

MaskConver: Nochmals über reine Faltungsmodelle für die Panoptic Segmentation

Abdullah Rashwan, Jiageng Zhang, Ali Taalimi, Fan Yang, Xingyi Zhou, Chaochao Yan, Liang-Chieh Chen, Yeqing Li
MaskConver: Nochmals über reine Faltungsmodelle für die Panoptic Segmentation
Abstract

In den letzten Jahren haben transformerbasierte Modelle die Panoptic-Segmentation dominiert, dank ihrer starken Modellierungsfähigkeiten und ihrer einheitlichen Darstellung sowohl semantischer als auch instanzbasierter Klassen mittels globaler Binärmasken. In diesem Paper revidieren wir reine Convolution-Modelle und stellen eine neuartige Panoptic-Architektur namens MaskConver vor. MaskConver schlägt vor, die Darstellung von „Things“ und „Stuff“ vollständig zu vereinheitlichen, indem deren Zentren vorhergesagt werden. Dazu entwickeln wir ein leichtgewichtiges Klassen-Embedding-Modul, das die Mehrfachzentren-Problematik an derselben Position löst. Zudem zeigt unsere Studie, dass die Dekodergestaltung entscheidend dafür ist, dass das Modell über ausreichend Kontext für präzise Detektion und Segmentierung verfügt. Wir führen einen leistungsstarken ConvNeXt-UNet-Dekoder ein, der die Leistungsunterschiede zwischen convolutionbasierten und transformerbasierten Modellen schließt. Mit einem ResNet50-Backbone erreicht unsere MaskConver eine PQ von 53,6 % auf dem COCO Panoptic-Validierungssatz, wobei sie das moderne convolutionbasierte Modell Panoptic FCN um 9,3 % sowie transformerbasierte Modelle wie Mask2Former (+1,7 % PQ) und kMaX-DeepLab (+0,6 % PQ) übertrifft. Zudem erreicht MaskConver mit einem MobileNet-Backbone eine PQ von 37,2 % und verbessert damit Panoptic-DeepLab unter denselben FLOPs-/Latenz-Beschränkungen um +6,4 %. Eine weiter optimierte Version von MaskConver erreicht eine PQ von 29,7 % und läuft dabei in Echtzeit auf mobilen Geräten. Der Quellcode und die Modellgewichte werden öffentlich verfügbar sein.