
摘要
零样本检测(Zero-Shot Detection, ZSD)旨在复杂场景中定位并识别未见物体,通常仅依赖于单个物体的视觉与语义信息。然而,人类对场景的理解远不止于对单个物体的独立识别:多个物体之间的上下文信息,如视觉关系信息(例如视觉上相似的物体)和语义关系信息(例如共现关系),对于视觉场景的深入理解具有重要帮助。本文验证了在ZSD任务中,上下文信息的作用比在传统目标检测中更为关键。为充分挖掘此类上下文信息,我们提出一种基于图建模与推理的新颖端到端ZSD方法——图对齐网络(Graph Aligning Network, GRAN)。该方法不再局限于单独分析每个物体,而是同时考虑多个物体之间的视觉与语义关系。具体而言,我们构建了视觉关系图(Visual Relational Graph, VRG)与语义关系图(Semantic Relational Graph, SRG),其中节点分别代表图像中的物体以及类别语义表示,边则表示图中节点间的关联性。为进一步刻画两种模态之间的相互作用,我们将两个子图融合为一个异构的视觉-语义关系图(Heterogeneous Visual-Semantic Relational Graph, VSRG)。在该图中,设计了模态转换器(modal translators),用于将两个子图的信息映射至统一空间,实现跨模态通信;同时,通过节点间的消息传递机制,不断优化各节点的表示。在MSCOCO数据集上的大量实验表明,所提方法在性能上显著优于现有最先进方法;定性分析进一步验证了利用上下文信息的有效性与合理性。