
摘要
场景图生成(Scene Graph Generation, SGG)任务涉及在图像中检测对象并预测表示这些对象之间关系的谓词。然而,在SGG基准数据集中,每个主客体对仅标注了一个谓词,尽管单个谓词可能表现出多样的语义(即语义多样性),现有的SGG模型仍被训练为针对每对主客体预测唯一的谓词。这导致SGG模型忽视了谓词中存在的语义多样性,从而产生有偏见的预测结果。本文提出了一种新颖的模型无关型语义多样性感知原型学习(Diverse Prototype-based Learning, DPL)框架,该框架通过理解谓词的语义多样性来实现无偏预测。具体而言,DPL学习每个谓词在语义空间中所覆盖的区域,以区分单个谓词可以代表的各种不同语义。大量实验表明,我们提出的模型无关型DPL框架显著提升了现有SGG模型的性能,并且有效地理解了谓词的语义多样性。