摘要
人-物体交互(Human-Object Interaction, HOI)检测旨在识别人类与物体之间的交互关系,这一技术在自动驾驶车辆、协作机器人等自主系统中具有重要应用价值。然而,当前的HOI检测模型普遍存在推理效率低下和预测可靠性不足的问题,严重制约了其在真实场景中的实际应用潜力。为此,本文提出ERNet——一种端到端可训练的卷积-Transformer混合网络,用于高效且准确的HOI检测。该模型引入了一种高效的多尺度可变形注意力机制,能够有效捕捉关键的HOI特征。此外,我们设计了一种新颖的检测注意力模块,可自适应地生成语义丰富的实例令牌(instance tokens)与交互令牌(interaction tokens)。这些令牌在Transformer解码器中被预先用于生成初始区域提议和向量提议,同时作为查询(queries)参与特征精炼过程,显著提升了模型的表示能力。为进一步增强HOI的表征学习效果,本文还引入多项关键改进策略。值得一提的是,我们在实例分类与交互分类分支中引入了预测不确定性估计框架,用于量化每项预测背后的置信度,从而在复杂场景下仍能实现高精度、高可靠性的HOI识别。在HICO-Det、V-COCO和HOI-A三个主流数据集上的实验结果表明,所提出的ERNet模型在检测准确率和训练效率方面均达到了当前最优水平。相关代码已公开发布于:https://github.com/Monash-CyPhi-AI-Research-Lab/ernet。