6 个月前

摘要

场景图生成旨在通过结构化建模图像中的物体及其相互关系，捕捉图像中的语义元素，这对于视觉理解与推理任务（如图像描述生成、视觉问答、多媒体事件处理、视觉叙事以及图像检索）至关重要。现有的场景图生成方法在支持高层视觉理解与推理方面，仍存在性能与表达能力有限的问题。这一挑战可通过引入关于场景图语义元素的常识知识（如相关事实与背景知识）得以缓解。本文提出将来自异构知识源的多样化常识知识注入场景图生成过程，该知识源整合了七个不同知识库中的常识信息，从而生成更具丰富性与表达力的场景图。通过利用对象节点的图嵌入，挖掘知识源中蕴含的结构模式，计算相似性度量以实现场景图的精炼与扩充。我们在基准数据集Visual Genome上进行了实验与对比分析，结果表明，所提出方法在不同K值下的召回率均优于现有最先进技术：当K = 20、50、100时，本方法的R@K分别为29.89、35.40、39.12，而对比方法分别为25.80、33.30、37.80。在下游图像生成任务中的定性结果进一步显示，基于常识知识构建的场景图能够生成更为逼真的图像。上述结果充分证明了将常识知识融入场景图生成过程，在提升其性能与表达能力方面具有显著有效性，为视觉理解与推理任务提供了有力支持。

源 PDF 查看代码