11 天前
探索谓词视觉上下文在检测人-物交互中的应用
Frederic Z. Zhang, Yuhui Yuan, Dylan Campbell, Zhuoyao Zhong, Stephen Gould

摘要
近年来,DETR框架已成为人类-物体交互(Human-Object Interaction, HOI)研究中的主流方法。其中,基于两阶段Transformer的HOI检测器在性能和训练效率方面表现尤为突出。然而,这类方法通常依赖于缺乏细粒度上下文信息的物体特征进行HOI分类,倾向于忽略姿态与朝向信息,转而依赖于物体身份识别和边界框端点的视觉线索。这种做法在本质上限制了对复杂或模糊交互关系的识别能力。本文通过可视化分析与精心设计的实验,深入探讨了上述问题。在此基础上,我们系统研究了如何通过交叉注意力机制更有效地重新引入图像特征。通过优化查询(query)设计、广泛探索键(key)与值(value)的表达形式,并引入边界框对的坐标位置嵌入作为空间引导,我们提出的模型在增强谓词视觉上下文(Predicate Visual Context, PViC)方面取得了显著改进。该模型在HICO-DET与V-COCO两个基准测试上均超越现有最先进方法,同时保持了较低的训练成本。