摘要
视觉关系检测旨在描述图像中成对物体之间的交互关系。与单独的物体识别任务不同,可能存在的关系数量显著增多,这使得仅依赖物体的视觉外观进行关系建模变得极为困难。此外,由于人工标注成本较高,视觉关系的标注通常存在不完整性,这进一步增加了模型训练与评估的难度。针对上述挑战,本文提出了一种名为“深度结构排序”(Deep Structural Ranking)的新框架,用于视觉关系检测。为弥补仅依赖视觉外观所带来的表征能力不足,我们融合了多种辅助线索以提升关系预测的准确性。同时,我们设计了一种新的排序目标函数,通过强制标注的关系获得更高的相关性得分,从而增强模型对真实关系的识别能力。与以往方法不同,本方法不仅能有效促进关系之间的共现模式学习,还能缓解标注不完整带来的负面影响。实验结果表明,所提方法在两个广泛使用的基准数据集上均优于当前最先进的技术。此外,我们还验证了该方法在零样本关系检测任务中的优越性能。