摘要
神经符号混合方法对于实现对视觉场景的无缝高层理解与推理而言已成为不可避免的趋势。场景图生成(Scene Graph Generation, SGG)是一种基于深度神经网络(DNN)的符号化图像表示方法,其核心在于预测图像中的对象、对象属性以及对象之间的成对视觉关系,从而构建场景图,用于下游的视觉推理任务。然而,SGG所依赖的众包训练数据集普遍存在严重不平衡问题,导致模型生成结果出现偏差。此外,可能的三元组组合数量极为庞大,使得为每一种视觉概念或关系收集充足的训练样本变得极为困难。为应对上述挑战,本文提出在传统的数据驱动SGG方法基础上引入常识知识,以增强视觉理解与推理的表达能力与自主性。为此,我们构建了一个松耦合的神经符号视觉理解与推理框架:该框架采用基于DNN的流水线完成目标检测,并结合多模态方法预测成对关系以生成场景图;同时,利用异构知识图谱中的常识知识对生成的场景图进行丰富与扩展,从而提升下游推理性能。我们在多个标准数据集(包括Visual Genome和Microsoft COCO)上进行了全面评估。实验结果表明,所提方法在关系召回率指标(即Recall@K与mean Recall@K)上优于当前最先进的SGG方法;在基于场景图的图像描述生成任务中,其SPICE与CIDEr得分也达到领先水平,同时在BLEU、ROUGE和METEOR等主流指标上保持相当的竞争力。定性分析显示,得益于常识知识的引入,生成的场景图在语义表达上更加丰富和准确,从而显著提升了图像描述生成的直观性与语义合理性。本研究验证了通过异构知识图谱对场景图进行常识知识增强的有效性。该工作为未来知识增强型视觉理解与推理研究提供了重要基准。