6 个月前

计算机视觉

多任务学习

计算机视觉

Junwen Chen Keiji Yanai

摘要

人体-物体交互（Human-Object Interaction, HOI）检测作为目标检测任务的下游任务，旨在定位图像中的人体与物体对，并提取二者之间的语义关系。近年来，由于具有较高的效率，单阶段方法已成为该任务的新趋势。然而，这些方法通常专注于检测潜在的交互点或筛选人体-物体对，而忽略了不同物体在空间尺度上位置与尺寸的多样性。为解决这一问题，本文提出一种基于Transformer的检测方法——QAHOI（Query-Based Anchors for Human-Object Interaction Detection），该方法采用多尺度架构，从不同空间尺度提取特征，并利用基于查询的锚点机制，统一预测HOI实例的所有组成部分。进一步研究发现，强大的主干网络显著提升了QAHOI的检测精度；在HICO-DET基准测试上，采用Transformer作为主干网络的QAHOI方法大幅超越了当前最先进的技术。项目源代码已公开，地址为：https://github.com/cjw2021/QAHOI。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

多任务学习

计算机视觉

Junwen Chen Keiji Yanai

摘要

人体-物体交互（Human-Object Interaction, HOI）检测作为目标检测任务的下游任务，旨在定位图像中的人体与物体对，并提取二者之间的语义关系。近年来，由于具有较高的效率，单阶段方法已成为该任务的新趋势。然而，这些方法通常专注于检测潜在的交互点或筛选人体-物体对，而忽略了不同物体在空间尺度上位置与尺寸的多样性。为解决这一问题，本文提出一种基于Transformer的检测方法——QAHOI（Query-Based Anchors for Human-Object Interaction Detection），该方法采用多尺度架构，从不同空间尺度提取特征，并利用基于查询的锚点机制，统一预测HOI实例的所有组成部分。进一步研究发现，强大的主干网络显著提升了QAHOI的检测精度；在HICO-DET基准测试上，采用Transformer作为主干网络的QAHOI方法大幅超越了当前最先进的技术。项目源代码已公开，地址为：https://github.com/cjw2021/QAHOI。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供