
人体-物体交互(Human-Object Interaction, HOI)检测在以人为中心的场景理解任务中具有重要意义。现有方法通常假设同一动词在不同HOI类别中具有相似的视觉特征,这一假设忽略了动词在语义上的多样性。为解决该问题,本文提出一种新型的多义性解析网络(Polysemy Deciphering Network, PD-Net),通过三种创新方式对HOI检测中的动词视觉多义性进行解析。首先,我们引入两个新颖模块——语言先验引导的通道注意力机制(Language Prior-guided Channel Attention, LPCA)与基于语言先验的特征增强方法(Language Prior-based Feature Augmentation, LPFA),以提升HOI检测特征的多义性感知能力。LPCA通过聚焦于每类HOI中人体与物体外观特征的重要组成部分,增强关键语义信息的表达;LPFA则利用语言先验对人物姿态和空间特征进行增强,使动词分类器能够接收语言层面的提示信息,从而有效降低同一动词在不同类别间的内部差异。其次,我们设计了一种新型的多义性感知模态融合模块(Polysemy-Aware Modal Fusion, PAMF),该模块根据语言先验判断各特征类型的相对重要性,引导网络在决策过程中优先利用更具语义相关性的特征。第三,我们提出通过共享语义相近的HOI类别所对应的动词分类器,缓解动词多义性带来的挑战。此外,为加速对动词多义性问题的研究,我们构建了一个新的基准数据集——HOI-VerbPolysemy(HOIVP),该数据集包含在现实世界中具有丰富语义差异的常见动词(谓词),以更真实地反映动词的多义特性。实验结果表明,通过有效解析动词的视觉多义性,本文提出的PD-Net在HICO-DET、V-COCO以及HOI-VP等多个基准数据集上均显著优于当前最先进方法。本文代码与数据已开源,地址为:https://github.com/MuchHair/PD-Net。