
摘要
现代人-物体交互(HOI)检测方法可分为单阶段方法与两阶段方法。单阶段模型因其结构简洁而具有更高的效率,但两阶段方法在检测精度方面仍具优势。现有的单阶段模型通常首先检测预定义的交互区域或关键点,随后仅聚焦于这些区域进行交互预测;因此,这类方法缺乏动态搜索判别性线索的推理过程。本文提出一种新颖的单阶段方法——凝视与凝视网络(Glance and Gaze Network, GGNet),通过“凝视”(glance)与“凝视”(gaze)两个步骤,自适应地建模一组动作感知点(Action-aware Points, ActPoints)。其中,“凝视”步骤快速判断特征图中每个像素是否为交互点;“凝视”步骤则利用“凝视”阶段生成的特征图,以渐进式方式自适应地推断每个像素周围的ActPoints。经过优化的ActPoints特征被聚合用于交互预测。此外,我们设计了一种动作感知匹配策略,能够有效将检测到的交互与对应的人-物体对进行关联,并引入一种新型的难负样本注意力损失(hard negative attentive loss),以提升GGNet的优化效果。上述所有操作均在特征图的所有像素上并行、高效地完成。最终,GGNet在V-COCO与HICODET两个主流基准测试上均显著优于现有最先进方法。GGNet的代码已开源,地址为:https://github.com/SherlockHolmes221/GGNet。