
摘要
与以往大多数聚焦于学习更优的人体-物体特征的HOI方法不同,我们提出了一种新颖且具有互补性的方法——类别查询学习(category query learning)。该方法中的查询显式关联于交互类别,通过Transformer解码器将其转化为图像特定的类别表征,并借助一个辅助的图像级分类任务进行学习。这一思想源于早期的多标签图像分类方法,但首次被应用于具有挑战性的人体-物体交互分类任务中。所提方法简洁、通用且高效,在三个具有代表性的HOI基准模型上得到验证,并在两个基准数据集上取得了新的最先进性能。