HyperAIHyperAI

Command Palette

Search for a command to run...

HOTR:基于Transformer的端到端人-物体交互检测

Bumsoo Kim Junhyun Lee Jaewoo Kang Eun-Sol Kim Hyunwoo J. Kim

摘要

人体-物体交互(Human-Object Interaction, HOI)检测任务旨在识别图像中的一组交互关系,其核心包括两个方面:一是准确定位交互中的主体(即人)和客体(即物体),二是对交互类别进行分类。现有的大多数方法通过先分别检测人体和物体实例,再逐一推断所有检测到的实例对之间的交互关系,从而间接完成该任务。本文提出一种新颖的框架——HOTR,该框架基于Transformer编码器-解码器架构,能够直接从图像中预测一组“<人, 物体, 交互>”三元组。通过集合预测机制,该方法有效利用了图像中固有的语义关联信息,无需耗时的后处理步骤,从而克服了现有方法的主要瓶颈。实验结果表明,所提出的算法在两个主流HOI检测基准上均取得了当前最优性能,且在完成物体检测后,单张图像的推理时间低于1毫秒。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供