11 天前

GPS-Net:用于场景图生成的图属性感知网络

Xin Lin, Changxing Ding, Jinquan Zeng, Dacheng Tao
GPS-Net:用于场景图生成的图属性感知网络
摘要

场景图生成(Scene Graph Generation, SGG)旨在检测图像中的物体及其成对之间的语义关系。近年来的研究中,有三个关键的场景图属性尚未得到充分探索:即边的方向信息、节点间的优先级差异,以及关系类型的长尾分布问题。针对上述问题,本文提出了一种图属性感知网络(Graph Property Sensing Network, GPS-Net),全面挖掘并利用这三个属性以提升SGG性能。首先,我们设计了一种新颖的消息传递模块,通过引入与节点相关的上下文信息来增强节点特征表示,并采用三线性模型对边的方向信息进行编码,从而更精确地建模关系的方向性。其次,为反映训练过程中节点间的优先级差异,我们提出了一种节点优先级敏感损失函数。该方法通过设计一个映射函数,动态调整焦点损失(focal loss)中的聚焦参数,使模型在训练时更加关注具有更高优先级的节点对。第三,考虑到关系类型的出现频率受长尾分布问题的显著影响,我们提出一种两阶段处理策略:首先对关系分布进行软化处理,随后根据每对主语-宾语的视觉外观特征,动态调整其关系分布的权重,以缓解长尾带来的偏差。系统性实验证明了所提方法的有效性。此外,GPS-Net在三个主流数据集(VG、OI和VRD)上均取得了显著优于现有方法的性能,实现了多种设置和评估指标下的最新技术水平。相关代码与模型已公开发布于:\url{https://github.com/taksau/GPS-Net}。

GPS-Net:用于场景图生成的图属性感知网络 | 最新论文 | HyperAI超神经