8 个月前

摘要

我们提出了一种简单、直观且强大的人类-物体交互（Human-Object Interaction, HOI）检测方法。由于图像中HOI在空间分布上的多样性，现有的基于卷积神经网络（CNN）的方法面临以下三个主要缺点：它们无法利用图像全局特征，因为CNN具有局部性；它们依赖于手动定义的兴趣区域进行特征聚合，这有时无法覆盖上下文中重要的区域；当多个HOI实例位置接近时，它们无法避免特征混淆。为了解决这些缺点，我们提出了一种基于 Transformer （Transformer）的特征提取器，在该提取器中，注意力机制和基于查询的检测起着关键作用。注意力机制在聚合图像全局的上下文重要信息方面非常有效，而我们设计的每个查询最多捕获一个人员-物体对，从而可以避免来自多个实例的特征混淆。这种基于 Transformer 的特征提取器生成了非常有效的嵌入向量，使得后续的检测头可以相对简单和直观。广泛的分析表明，所提出的方法成功地提取了上下文中的重要特征，因此在HICO-DET数据集上比现有方法提高了5.37个mAP，在V-COCO数据集上提高了5.7个mAP。源代码可在 $\href{https://github.com/hitachi-rd-cv/qpic}{\text{此链接}}$ 获取。