6 个月前

多任务学习

计算机视觉

Bumsoo Kim Junhyun Lee Jaewoo Kang Eun-Sol Kim Hyunwoo J. Kim

摘要

人体-物体交互（Human-Object Interaction, HOI）检测任务旨在识别图像中的一组交互关系，其核心包括两个方面：一是准确定位交互中的主体（即人）和客体（即物体），二是对交互类别进行分类。现有的大多数方法通过先分别检测人体和物体实例，再逐一推断所有检测到的实例对之间的交互关系，从而间接完成该任务。本文提出一种新颖的框架——HOTR，该框架基于Transformer编码器-解码器架构，能够直接从图像中预测一组“<人, 物体, 交互>”三元组。通过集合预测机制，该方法有效利用了图像中固有的语义关联信息，无需耗时的后处理步骤，从而克服了现有方法的主要瓶颈。实验结果表明，所提出的算法在两个主流HOI检测基准上均取得了当前最优性能，且在完成物体检测后，单张图像的推理时间低于1毫秒。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多任务学习

计算机视觉

Bumsoo Kim Junhyun Lee Jaewoo Kang Eun-Sol Kim Hyunwoo J. Kim

摘要

人体-物体交互（Human-Object Interaction, HOI）检测任务旨在识别图像中的一组交互关系，其核心包括两个方面：一是准确定位交互中的主体（即人）和客体（即物体），二是对交互类别进行分类。现有的大多数方法通过先分别检测人体和物体实例，再逐一推断所有检测到的实例对之间的交互关系，从而间接完成该任务。本文提出一种新颖的框架——HOTR，该框架基于Transformer编码器-解码器架构，能够直接从图像中预测一组“<人, 物体, 交互>”三元组。通过集合预测机制，该方法有效利用了图像中固有的语义关联信息，无需耗时的后处理步骤，从而克服了现有方法的主要瓶颈。实验结果表明，所提出的算法在两个主流HOI检测基准上均取得了当前最优性能，且在完成物体检测后，单张图像的推理时间低于1毫秒。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供