场景图(Scene Graph)是视觉推理中一种关键的图像表示方法。场景图生成(Scene Graph Generation, SGG)方法的泛化能力对于实现可靠推理及实际应用至关重要。然而,训练数据集的不平衡问题严重制约了这一能力,导致许多有意义的视觉关系在数据中被欠表示。当前大多数基于外部知识源的SGG方法受限于数据分布不均或关系覆盖范围有限,从而影响其推理与泛化性能。为此,我们提出一种新颖的神经符号(neurosymbolic)方法,该方法将数据驱动的目标检测与基于异构知识图谱(heterogeneous knowledge graph)的对象精炼及零样本关系检索相结合,凸显了神经组件与符号组件之间松耦合的协同作用。该框架有效缓解了训练数据不平衡对场景图生成的负面影响,并实现了对未见视觉关系的高效预测。具体而言,首先通过基于区域的深度神经网络检测图像中的对象,随后依据对象的位置与结构相似性进行精炼;接着,利用异构知识图谱检索对象对之间的视觉关系。对于冗余或无关的关系,基于关系标签与节点嵌入的相似性进行过滤;最终,将筛选后的视觉关系进行互联,生成完整的场景图。所采用的异构知识图谱融合了多种异质知识来源,蕴含丰富的关于物体及其在现实世界中交互的常识性知识。在标准数据集Visual Genome上,结合零样本召回率(zero-shot recall, zR@K)指标进行评估,本方法相比现有最先进方法实现了59.96%的性能提升,充分验证了其在泛化SGG任务中的有效性。其中,对象精炼步骤显著提升了目标检测性能,提升幅度达57.1%。此外,在GQA数据集上的额外实验进一步证实了本方法具备良好的跨数据集泛化能力。我们还系统比较了多种知识源与嵌入模型,以确定适用于零样本SGG任务的最优组合方案。相关源代码已公开,可通过 https://github.com/jaleedkhan/zsrr-sgg 获取。