8 个月前

摘要

场景图生成（Scene Graph Generation, SGG）任务涉及在图像中检测对象并预测表示这些对象之间关系的谓词。然而，在SGG基准数据集中，每个主客体对仅标注了一个谓词，尽管单个谓词可能表现出多样的语义（即语义多样性），现有的SGG模型仍被训练为针对每对主客体预测唯一的谓词。这导致SGG模型忽视了谓词中存在的语义多样性，从而产生有偏见的预测结果。本文提出了一种新颖的模型无关型语义多样性感知原型学习（Diverse Prototype-based Learning, DPL）框架，该框架通过理解谓词的语义多样性来实现无偏预测。具体而言，DPL学习每个谓词在语义空间中所覆盖的区域，以区分单个谓词可以代表的各种不同语义。大量实验表明，我们提出的模型无关型DPL框架显著提升了现有SGG模型的性能，并且有效地理解了谓词的语义多样性。

源 PDF