6 个月前

摘要

视觉数据领域中Transformer模型的最新进展显著提升了识别与检测任务的性能。特别是，用可学习查询（learnable queries）替代区域提议（region proposals）的方法，催生了一类新的单阶段检测模型，其中以检测Transformer（DETR）为代表。此后，此类单阶段方法在人-物体交互（Human-Object Interaction, HOI）检测任务中占据主导地位。然而，这类单阶段HOI检测器的成功在很大程度上得益于Transformer强大的表征能力。我们发现，当使用相同的Transformer架构时，其双阶段对应模型不仅性能更优、内存效率更高，且训练时间仅为前者的极小部分。为此，本文提出一种双阶段检测器——单体-成对Transformer（Unary-Pairwise Transformer），该模型通过利用单体（unary）与成对（pairwise）两种表征来建模HOI关系。我们观察到，该Transformer网络中的单体与成对分支具有明确的功能分工：前者主要提升正样本的得分，后者则有效降低负样本的得分。我们在HICO-DET与V-COCO两个标准数据集上对所提方法进行了评估，结果显著优于当前最先进的方法。在推理阶段，采用ResNet50作为主干网络的模型在单张GPU上即可实现接近实时的运行速度。

源 PDF