17 天前

MaskConver:重新审视用于全景分割的纯卷积模型

Abdullah Rashwan, Jiageng Zhang, Ali Taalimi, Fan Yang, Xingyi Zhou, Chaochao Yan, Liang-Chieh Chen, Yeqing Li
MaskConver:重新审视用于全景分割的纯卷积模型
摘要

近年来,基于Transformer的模型在全景分割任务中占据主导地位,这得益于其强大的建模能力以及对语义类别和实例类别统一的全局二值掩码表示。本文中,我们重新审视纯卷积模型,并提出一种新型全景分割架构——MaskConver。MaskConver通过预测各类别中心点,实现对“事物”(things)与“东西”(stuff)表示的全面统一。为此,该方法设计了一种轻量级的类别嵌入模块,能够在多个中心点共存于同一位置时有效区分它们。此外,我们的研究发现,解码器的设计对于确保模型具备充分上下文信息以实现精确检测与分割至关重要。为此,我们引入了一种强大的ConvNeXt-UNet解码器,成功缩小了卷积网络与Transformer模型之间的性能差距。在使用ResNet50作为主干网络的情况下,MaskConver在COCO全景分割验证集上取得了53.6%的PQ(Panoptic Quality)指标,相较于当前先进的卷积基模型Panoptic FCN提升了9.3%,同时超越了Mask2Former(+1.7% PQ)和kMaX-DeepLab(+0.6% PQ)等基于Transformer的模型。此外,在MobileNet主干网络下,MaskConver在同等FLOPs与延迟约束条件下,达到37.2%的PQ,较Panoptic-DeepLab提升6.4%。进一步优化后的版本在移动设备上实现实时运行,达到29.7%的PQ性能。相关代码与模型权重将公开发布。