
摘要
多人解析是一项图像分割任务,需要同时处理实例级和细粒度类别级信息。然而,以往的研究通常通过独立的分支和不同的输出格式来处理这两种类型的信息,导致框架效率低下且冗余。本文介绍了UniParser,该方法在三个关键方面整合了实例级和类别级表示:1)我们提出了一种统一的相关性表示学习方法,使网络能够在余弦空间内学习实例和类别特征;2)我们将每个模块的输出形式统一为像素级分割结果,并使用同质标签及辅助损失监督实例和类别特征;3)我们设计了一种联合优化程序,以融合实例和类别表示。通过统一实例级和类别级输出,UniParser避免了手动设计的后处理技术,并超越了现有最先进方法,在MHPv2.0数据集上达到了49.3%的AP值,在CIHP数据集上达到了60.4%的AP值。我们将发布源代码、预训练模型和在线演示,以促进未来的研究。