摘要

我们提出了一种新的场景图生成模型，称为Graph R-CNN，该模型在图像中检测对象及其关系方面既有效又高效。我们的模型包含一个关系提议网络（Relation Proposal Network, RePN），能够高效地处理图像中对象之间潜在关系的二次数量问题。此外，我们还提出了一种注意力机制图卷积网络（attentional Graph Convolutional Network, aGCN），能够有效地捕捉对象和关系之间的上下文信息。最后，我们引入了一种新的评估指标，该指标比现有的评估指标更加全面和现实。我们在使用现有指标和我们提出的指标进行评估时，报告了场景图生成领域的最先进性能。

源 PDF