
摘要
我们研究人类-物体交互(Human-Object Interaction, HOI)检测问题,其目标是在图像中定位并识别以“<人类, 动作, 物体>”形式存在的HOI实例。现有大多数方法将HOI视为独立的交互类别,因而难以应对动作标签存在的长尾分布问题以及多义性(polysemy)挑战。我们认为,物体、动作与交互之间存在的多层次一致性(multi-level consistencies)是生成罕见或未见HOI语义表征的有力线索。基于HOI标签所具有的组合性与关系性特征,我们提出ConsNet——一种知识感知的框架,该框架显式地将物体、动作与交互之间的关系编码为一种无向图结构,称为一致性图(consistency graph),并利用图注意力网络(Graph Attention Networks, GATs)在HOI类别及其构成成分之间传播知识。我们的模型以候选人类-物体对的视觉特征和HOI标签的词嵌入(word embeddings)作为输入,将其映射至视觉-语义联合嵌入空间,并通过计算相似性获得检测结果。我们在具有挑战性的V-COCO与HICO-DET数据集上进行了广泛实验,结果表明,无论是在全监督还是零样本(zero-shot)设置下,本方法均显著优于现有最先进模型。代码已开源,地址为:https://github.com/yeliudev/ConsNet。