
摘要
人体-物体交互(Human-Object Interaction, HOI)检测是场景理解中的关键任务,其目标是从场景中推断出三元组〈主体,谓词,客体〉。在本工作中,我们观察到人体姿态本身及其相对于目标物体的相对空间位置信息,能够为HOI检测提供重要的线索。为此,我们提出了一种基于姿态的模块化网络(Pose-based Modular Network, PMN),该网络通过挖掘绝对姿态特征与相对空间姿态特征,有效提升HOI检测性能,并与现有网络架构完全兼容。PMN模块包含两个并行分支:其中一个分支独立处理每个关节的相对空间姿态特征;另一个分支则通过全连接图结构对绝对姿态特征进行更新。经过处理的姿态特征随后输入至动作分类器中进行最终预测。为验证所提方法的有效性,我们将该模块与当前最先进的模型VS-GATs相结合,在两个公开基准数据集V-COCO和HICO-DET上均取得了显著性能提升,充分体现了该方法的高效性与灵活性。代码已开源,地址为:\url{https://github.com/birlrobotics/PMN}。