11 天前

基于物体引导的跨模态校准语义的人体-物体交互检测

Hangjie Yuan, Mang Wang, Dong Ni, Liangpeng Xu

摘要

人体-物体交互（Human-Object Interaction, HOI）检测是一项从细粒度角度理解以人为中心图像的关键任务。尽管端到端的HOI检测模型发展迅速，但其并行进行人体/物体检测与动词类别预测的范式，失去了两阶段方法的优势——即基于物体的层次化先验信息。在每一个HOI三元组中，物体本身为待预测的动词提供了直接线索。本文旨在通过引入基于物体的统计先验知识，提升端到端模型的性能。具体而言，我们提出构建一个动词语义模型（Verb Semantic Model, VSM），并通过语义聚合机制充分利用这种由物体引导的层次结构。为此，我们设计了相似性KL（Similarity KL, SKL）损失函数，用于优化VSM，使其与HOI数据集中的先验分布对齐。为解决传统静态语义嵌入的局限性，我们进一步提出通过跨模态校准（Cross-Modal Calibration, CMC）生成具备跨模态感知能力的视觉与语义特征。上述模块协同构成基于物体引导的跨模态校准网络（Object-guided Cross-modal Calibration Network, OCN）。在两个主流HOI检测基准上的实验结果表明，引入统计先验知识显著提升了模型性能，并达到了当前最优水平。更深入的分析显示，所提出的模块不仅作为更强大的动词预测器，也提供了更优的先验知识利用方式。相关代码已公开，地址为：\url{https://github.com/JacobYuan7/OCN-HOI-Benchmark}。