11 天前

基于物体引导的跨模态校准语义的人体-物体交互检测

Hangjie Yuan, Mang Wang, Dong Ni, Liangpeng Xu
基于物体引导的跨模态校准语义的人体-物体交互检测
摘要

人体-物体交互(Human-Object Interaction, HOI)检测是一项从细粒度角度理解以人为中心图像的关键任务。尽管端到端的HOI检测模型发展迅速,但其并行进行人体/物体检测与动词类别预测的范式,失去了两阶段方法的优势——即基于物体的层次化先验信息。在每一个HOI三元组中,物体本身为待预测的动词提供了直接线索。本文旨在通过引入基于物体的统计先验知识,提升端到端模型的性能。具体而言,我们提出构建一个动词语义模型(Verb Semantic Model, VSM),并通过语义聚合机制充分利用这种由物体引导的层次结构。为此,我们设计了相似性KL(Similarity KL, SKL)损失函数,用于优化VSM,使其与HOI数据集中的先验分布对齐。为解决传统静态语义嵌入的局限性,我们进一步提出通过跨模态校准(Cross-Modal Calibration, CMC)生成具备跨模态感知能力的视觉与语义特征。上述模块协同构成基于物体引导的跨模态校准网络(Object-guided Cross-modal Calibration Network, OCN)。在两个主流HOI检测基准上的实验结果表明,引入统计先验知识显著提升了模型性能,并达到了当前最优水平。更深入的分析显示,所提出的模块不仅作为更强大的动词预测器,也提供了更优的先验知识利用方式。相关代码已公开,地址为:\url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}。

基于物体引导的跨模态校准语义的人体-物体交互检测 | 最新论文 | HyperAI超神经