6 个月前

计算机视觉

多模态表征

计算机视觉

Frederic Z. Zhang Yuhui Yuan Dylan Campbell Zhuoyao Zhong Stephen Gould

摘要

近年来，DETR框架已成为人类-物体交互（Human-Object Interaction, HOI）研究中的主流方法。其中，基于两阶段Transformer的HOI检测器在性能和训练效率方面表现尤为突出。然而，这类方法通常依赖于缺乏细粒度上下文信息的物体特征进行HOI分类，倾向于忽略姿态与朝向信息，转而依赖于物体身份识别和边界框端点的视觉线索。这种做法在本质上限制了对复杂或模糊交互关系的识别能力。本文通过可视化分析与精心设计的实验，深入探讨了上述问题。在此基础上，我们系统研究了如何通过交叉注意力机制更有效地重新引入图像特征。通过优化查询（query）设计、广泛探索键（key）与值（value）的表达形式，并引入边界框对的坐标位置嵌入作为空间引导，我们提出的模型在增强谓词视觉上下文（Predicate Visual Context, PViC）方面取得了显著改进。该模型在HICO-DET与V-COCO两个基准测试上均超越现有最先进方法，同时保持了较低的训练成本。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多模态表征

计算机视觉

Frederic Z. Zhang Yuhui Yuan Dylan Campbell Zhuoyao Zhong Stephen Gould

摘要

近年来，DETR框架已成为人类-物体交互（Human-Object Interaction, HOI）研究中的主流方法。其中，基于两阶段Transformer的HOI检测器在性能和训练效率方面表现尤为突出。然而，这类方法通常依赖于缺乏细粒度上下文信息的物体特征进行HOI分类，倾向于忽略姿态与朝向信息，转而依赖于物体身份识别和边界框端点的视觉线索。这种做法在本质上限制了对复杂或模糊交互关系的识别能力。本文通过可视化分析与精心设计的实验，深入探讨了上述问题。在此基础上，我们系统研究了如何通过交叉注意力机制更有效地重新引入图像特征。通过优化查询（query）设计、广泛探索键（key）与值（value）的表达形式，并引入边界框对的坐标位置嵌入作为空间引导，我们提出的模型在增强谓词视觉上下文（Predicate Visual Context, PViC）方面取得了显著改进。该模型在HICO-DET与V-COCO两个基准测试上均超越现有最先进方法，同时保持了较低的训练成本。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供