2 个月前

基于查询的图像全局上下文信息的人-物交互检测(QPIC)

Tamura, Masato ; Ohashi, Hiroki ; Yoshinaga, Tomoaki
基于查询的图像全局上下文信息的人-物交互检测(QPIC)
摘要

我们提出了一种简单、直观且强大的人类-物体交互(Human-Object Interaction, HOI)检测方法。由于图像中HOI在空间分布上的多样性,现有的基于卷积神经网络(CNN)的方法面临以下三个主要缺点:它们无法利用图像全局特征,因为CNN具有局部性;它们依赖于手动定义的兴趣区域进行特征聚合,这有时无法覆盖上下文中重要的区域;当多个HOI实例位置接近时,它们无法避免特征混淆。为了解决这些缺点,我们提出了一种基于变压器(Transformer)的特征提取器,在该提取器中,注意力机制和基于查询的检测起着关键作用。注意力机制在聚合图像全局的上下文重要信息方面非常有效,而我们设计的每个查询最多捕获一个人员-物体对,从而可以避免来自多个实例的特征混淆。这种基于变压器的特征提取器生成了非常有效的嵌入向量,使得后续的检测头可以相对简单和直观。广泛的分析表明,所提出的方法成功地提取了上下文中的重要特征,因此在HICO-DET数据集上比现有方法提高了5.37个mAP,在V-COCO数据集上提高了5.7个mAP。源代码可在$\href{https://github.com/hitachi-rd-cv/qpic}{\text{此链接}}$获取。

基于查询的图像全局上下文信息的人-物交互检测(QPIC) | 最新论文 | HyperAI超神经