
摘要
我们针对人类-物体交互(Human-Object Interaction, HOI)检测这一具有挑战性的问题展开研究。现有方法要么孤立地识别每对人-物之间的交互关系,要么基于复杂的外观特征进行联合推理。本文中,我们采用一种抽象的空间-语义表示来描述每对人-物关系,并通过构建双关系图(一个以人类为中心,一个以物体为中心)来聚合场景的上下文信息。所提出的双关系图能够有效捕捉场景中的判别性线索,从而缓解局部预测带来的歧义。我们的模型在概念上简洁明了,在两个大规模基准数据集上的实验结果表明,其性能优于当前最先进的HOI检测算法。