
摘要
本文探讨了图像和视频中检测和识别人类-物体交互(Human-Object Interaction, HOI)的任务。我们引入了一种图解析神经网络(Graph Parsing Neural Network, GPNN)框架,该框架在端到端可微分的同时融入了结构知识。对于给定的场景,GPNN 推断出一个解析图,其中包括:i) 由邻接矩阵表示的 HOI 图结构;ii) 节点标签。在消息传递推理框架内,GPNN 迭代计算邻接矩阵和节点标签。我们在三个图像和视频的 HOI 检测基准数据集上对模型进行了广泛评估:HICO-DET、V-COCO 和 CAD-120 数据集。实验结果表明,我们的方法显著优于现有最先进方法,验证了 GPNN 在大规模数据集上的可扩展性以及在时空场景中的适用性。代码已发布在 https://github.com/SiyuanQi/gpnn。