17 天前
MaX-DeepLab:基于掩码Transformer的端到端全景分割
Huiyu Wang, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen

摘要
我们提出 MaX-DeepLab,这是首个面向全景分割(panoptic segmentation)的端到端模型。该方法简化了当前依赖大量代理子任务和人工设计组件的复杂流程,例如边界框检测、非极大值抑制(non-maximum suppression)、可数物(thing)与不可数物(stuff)合并等。尽管这些子任务由领域专家分别处理,但仍难以全面解决全景分割的最终目标。相比之下,MaX-DeepLab 通过一个掩码变换器(mask transformer)直接预测带有类别标签的掩码,并采用基于二分匹配(bipartite matching)的全景质量(panoptic quality)损失进行训练。该掩码变换器采用双路径架构,在传统的卷积神经网络(CNN)路径之外引入全局记忆路径,实现与任意 CNN 层的直接信息交互。实验结果表明,在具有挑战性的 COCO 数据集上,MaX-DeepLab 在无边界框(box-free)设置下实现了 7.1% 的 PQ(Panoptic Quality)显著提升,首次弥合了基于边界框与无边界框方法之间的性能差距。此外,MaX-DeepLab 的小型变体在参数量和计算量(M-Adds)相近的情况下,相比 DETR 提升了 3.0% 的 PQ。更重要的是,该模型在不使用测试时增强(test-time augmentation)的情况下,于 COCO test-dev 集上取得了 51.3% 的 PQ,达到新的最先进水平。代码已开源,地址为:https://github.com/google-research/deeplab2。