11 天前

DIRV:用于端到端人-物体交互检测的密集交互区域投票

Hao-Shu Fang, Yichen Xie, Dian Shao, Cewu Lu
DIRV:用于端到端人-物体交互检测的密集交互区域投票
摘要

近年来,人-物体交互(Human-Object Interaction, HOI)检测取得了显著进展。然而,传统的两阶段方法在推理速度上通常较为缓慢。另一方面,现有的单阶段方法主要关注交互区域的并集(union regions),这会引入不必要的视觉信息,成为HOI检测的干扰因素。针对上述问题,本文提出了一种新型的单阶段HOI检测方法——DIRV(Dense Interaction Region Voting),其基于一个全新的概念:交互区域(Interaction Region)。与以往方法不同,我们的方法聚焦于对每一对人-物体在多尺度下进行密集采样的交互区域,从而捕捉对交互最为关键的细微视觉特征。此外,为弥补单一交互区域检测的不足,我们引入了一种新颖的投票机制,充分利用重叠的交互区域,替代传统的非极大值抑制(Non-Maximum Suppression, NMS)策略,有效提升检测精度。在两个主流基准数据集V-COCO和HICO-DET上的大量实验表明,所提方法在保持最高推理速度的同时,拥有最轻量级的网络结构,并显著超越现有最先进方法。在不使用额外输入的情况下,我们在V-COCO数据集上达到了56.1 mAP的性能。相关代码已公开,地址为:https://github.com/MVIG-SJTU/DIRV。

DIRV:用于端到端人-物体交互检测的密集交互区域投票 | 最新论文 | HyperAI超神经