
摘要
先前高度优化的图像解析模型通常在特定领域内进行研究,使用一组特定的语义标签,难以在其他场景中直接应用(例如,在标签粒度存在差异的情况下),而无需进行大量重新训练。通过整合来自不同领域或不同粒度层级的标签注释,学习一个统一的通用解析模型,是一个关键但极少被深入探讨的研究课题。这一目标带来了诸多基础性学习挑战,例如:挖掘不同标签粒度之间的潜在语义结构,或在相关任务之间挖掘标签间的内在关联。为应对这些挑战,我们提出了一种名为“Graphonomy”的图推理与迁移学习框架。该框架在超越局部卷积的基础上,将人类先验知识与标签本体(label taxonomy)融入中间图表示的学习过程,以实现更深层次的语义建模。具体而言,Graphonomy通过语义感知的图推理与迁移机制,在多个领域间学习全局且结构化的语义一致性,从而促进不同领域间解析任务之间的相互增益(如不同数据集之间或相关任务之间的协同提升)。Graphonomy框架包含两个迭代模块:域内图推理模块(Intra-Graph Reasoning)与域间图迁移模块(Inter-Graph Transfer)。前者在每个领域内部构建语义图,通过图结构传播信息,以提升特征表示能力;后者则利用不同领域间图结构之间的依赖关系,实现双向知识迁移。我们将Graphonomy应用于两个密切相关但又有所不同的图像理解研究任务:人体解析(human parsing)与全景分割(panoptic segmentation),并证明该框架能够通过标准流程,有效应对这两类任务,性能优于当前主流的先进方法。此外,该框架还展现出额外优势,例如:通过统一整合来自不同数据集的标注信息,实现对人体解析在多种粒度层级下的灵活生成。