11 天前

HOTR:基于Transformer的端到端人-物体交互检测

Bumsoo Kim, Junhyun Lee, Jaewoo Kang, Eun-Sol Kim, Hyunwoo J. Kim
HOTR:基于Transformer的端到端人-物体交互检测
摘要

人体-物体交互(Human-Object Interaction, HOI)检测任务旨在识别图像中的一组交互关系,其核心包括两个方面:一是准确定位交互中的主体(即人)和客体(即物体),二是对交互类别进行分类。现有的大多数方法通过先分别检测人体和物体实例,再逐一推断所有检测到的实例对之间的交互关系,从而间接完成该任务。本文提出一种新颖的框架——HOTR,该框架基于Transformer编码器-解码器架构,能够直接从图像中预测一组“<人, 物体, 交互>”三元组。通过集合预测机制,该方法有效利用了图像中固有的语义关联信息,无需耗时的后处理步骤,从而克服了现有方法的主要瓶颈。实验结果表明,所提出的算法在两个主流HOI检测基准上均取得了当前最优性能,且在完成物体检测后,单张图像的推理时间低于1毫秒。