13 天前

基于局部到全局交互的场景图生成挑战应对方法

Sangmin Woo, Junhyug Noh, Kangil Kim
基于局部到全局交互的场景图生成挑战应对方法
摘要

在本工作中,我们致力于揭示场景图生成(Scene Graph Generation, SGG)任务背后的核心挑战。对Visual Genome数据集的定量与定性分析揭示了三个关键问题:1)歧义性:即使两个对象间的关系包含相同的主体(或谓词),其视觉或语义特征也可能存在显著差异;2)非对称性:尽管关系本身具有方向性,但以往研究对此方向性特征的建模并未充分考虑;3)高阶上下文依赖:利用图中某些特定元素的身份信息,有助于生成更准确的场景图。受上述分析启发,我们提出一种新颖的SGG框架——局部到全局交互网络(Local-to-Global Interaction Networks, LOGIN)。在局部层面,网络通过三元组(主体、客体与背景)之间的交互捕捉其本质特征,并通过显式约束主体与客体的输入顺序,将方向感知能力嵌入模型结构中;在全局层面,网络进一步建模图中各组件(即节点与边)之间的上下文关系。最后,采用“吸引与排斥”损失(Attract & Repel loss)对谓词嵌入的分布进行精细化调整。基于该设计,我们的框架能够以自底向上的方式生成场景图,充分利用不同元素之间的互补性。为进一步量化LOGIN对关系方向性的感知能力,我们引入一项新的诊断性任务——双向关系分类(Bidirectional Relationship Classification, BRC)。实验结果表明,在BRC任务中,LOGIN在区分关系方向性方面显著优于现有方法;同时,在Visual Genome基准测试中,LOGIN也取得了当前最优的性能表现。