
摘要
近年来,检测和识别单个物体实例方面取得了快速进展。然而,为了理解场景中的情况,计算机需要识别人类如何与周围物体互动。本文中,我们致力于解决检测人-物交互(Human-Object Interaction, HOI)这一具有挑战性的任务。我们的核心思想是,一个人或一个物体实例的外观包含了有助于促进交互预测的相关图像部分的重要线索。为了利用这些线索,我们提出了一种以实例为中心的注意力模块,该模块能够根据每个实例的外观动态突出图像中的区域。这种基于注意力的网络使我们能够选择性地聚合对识别HOI有用的特征。我们在Verb in COCO和HICO-DET数据集上验证了所提出的网络的有效性,并展示了我们的方法在性能上优于现有最先进方法。