8 个月前

摘要

视觉关系检测（VRD）在基于Transformer的架构方面最近取得了显著进展。然而，我们在训练基于Transformer的VRD模型时发现传统标签分配方法存在两个关键限制，该过程涉及将真实值（Ground Truth, GT）映射到预测结果。在传统分配方法下，由于期望每个查询都能检测所有关系，因此未对查询进行专门化训练，这使得查询难以专注于特定的关系。此外，由于一个真实值仅被分配给单个预测结果，因此接近正确甚至完全正确的预测结果因未被分配任何关系的真实值而受到抑制。为了解决这些问题，我们提出了一种组内查询专门化和质量感知多分配（SpeaQ）的方法。组内查询专门化通过将查询和关系划分为互不相交的组，并引导特定查询组中的查询仅关注对应关系组中的关系来实现专门化训练。质量感知多分配则进一步通过将真实值分配给多个在主体、客体及二者之间的关系上与真实值显著接近的预测结果来促进训练。实验结果和分析表明，SpeaQ有效地训练了专门化的查询，更好地利用了模型的能力，在多个VRD模型和基准测试中实现了性能的一致提升，并且没有增加额外的推理成本。代码可在https://github.com/mlvlab/SpeaQ 获取。

源 PDF