8 个月前

摘要

全景部件分割（Panoptic Part Segmentation, PPS）旨在将全景分割和部件分割统一为一个任务。以往的研究主要采用分离的方法分别处理物体、背景和部件的预测，而没有进行任何共享计算和任务关联。在本研究中，我们致力于在架构层面统一这些任务，设计了首个端到端的统一方法——Panoptic-PartFormer。具体而言，受到近期视觉变换器（Vision Transformer）进展的启发，我们将物体、背景和部件建模为对象查询，并直接学习优化这三种预测，将其作为一个统一的掩码预测和分类问题。我们设计了一个解耦的解码器，分别生成部件特征和物体/背景特征。然后，我们提出利用所有查询及其对应的特征进行联合且迭代的推理。最终的掩码可以通过查询与对应特征之间的内积获得。大量的消融实验和分析证明了我们框架的有效性。我们的Panoptic-PartFormer在Cityscapes PPS和Pascal Context PPS数据集上均取得了新的最先进结果，同时减少了至少70%的GFlops和50%的参数量。特别是在使用ResNet50骨干网络时，我们在Pascal Context PPS数据集上获得了3.4%的相对改进；而在采用Swin Transformer后，这一改进达到了10%。据我们所知，我们是第一个通过统一且端到端的变换器模型解决PPS问题的研究团队。鉴于其有效性和概念上的简洁性，我们希望Panoptic-PartFormer能够成为一个良好的基线，并促进未来对PPS的统一研究。我们的代码和模型可在https://github.com/lxtGH/Panoptic-PartFormer获取。

源 PDF