
摘要
我们提出一种基于图神经网络的人体-物体交互检测方法。与传统方法中节点向所有邻居发送经过缩放但内容相同的消息不同,本文提出根据节点对之间的空间关系来条件化消息传递,从而使同一节点的不同邻居接收到的 messages 有所差异。为此,我们在多分支结构下探索了多种空间条件化策略的应用方式。通过大量实验,我们验证了空间条件化在邻接结构构建、消息传递以及图特征优化方面的显著优势。特别地,我们通过实证发现,随着边界框质量的提升,物体的粗粒度外观特征在交互语义消歧中的作用相对减弱,而空间信息的重要性则愈发凸显。所提方法在 HICO-DET 数据集上达到 31.33% 的 mAP,在 V-COCO 数据集上达到 54.2% 的 mAP,显著优于现有最优方法在微调检测任务上的表现。