2 个月前
Panoptic-PartFormer:学习用于全景部件分割的统一模型
Xiangtai Li; Shilin Xu; Yibo Yang; Guangliang Cheng; Yunhai Tong; Dacheng Tao

摘要
全景部件分割(Panoptic Part Segmentation, PPS)旨在将全景分割和部件分割统一为一个任务。以往的研究主要采用分离的方法分别处理物体、背景和部件的预测,而没有进行任何共享计算和任务关联。在本研究中,我们致力于在架构层面统一这些任务,设计了首个端到端的统一方法——Panoptic-PartFormer。具体而言,受到近期视觉变换器(Vision Transformer)进展的启发,我们将物体、背景和部件建模为对象查询,并直接学习优化这三种预测,将其作为一个统一的掩码预测和分类问题。我们设计了一个解耦的解码器,分别生成部件特征和物体/背景特征。然后,我们提出利用所有查询及其对应的特征进行联合且迭代的推理。最终的掩码可以通过查询与对应特征之间的内积获得。大量的消融实验和分析证明了我们框架的有效性。我们的Panoptic-PartFormer在Cityscapes PPS和Pascal Context PPS数据集上均取得了新的最先进结果,同时减少了至少70%的GFlops和50%的参数量。特别是在使用ResNet50骨干网络时,我们在Pascal Context PPS数据集上获得了3.4%的相对改进;而在采用Swin Transformer后,这一改进达到了10%。据我们所知,我们是第一个通过统一且端到端的变换器模型解决PPS问题的研究团队。鉴于其有效性和概念上的简洁性,我们希望Panoptic-PartFormer能够成为一个良好的基线,并促进未来对PPS的统一研究。我们的代码和模型可在https://github.com/lxtGH/Panoptic-PartFormer获取。