17 天前

基于常识知识注入的表达性场景图生成用于视觉理解与推理

{Edward, John G.; Curry, M. Jaleed; Breslin, Khan}
摘要

场景图生成旨在通过结构化建模图像中的物体及其相互关系,捕捉图像中的语义元素,这对于视觉理解与推理任务(如图像描述生成、视觉问答、多媒体事件处理、视觉叙事以及图像检索)至关重要。现有的场景图生成方法在支持高层视觉理解与推理方面,仍存在性能与表达能力有限的问题。这一挑战可通过引入关于场景图语义元素的常识知识(如相关事实与背景知识)得以缓解。本文提出将来自异构知识源的多样化常识知识注入场景图生成过程,该知识源整合了七个不同知识库中的常识信息,从而生成更具丰富性与表达力的场景图。通过利用对象节点的图嵌入,挖掘知识源中蕴含的结构模式,计算相似性度量以实现场景图的精炼与扩充。我们在基准数据集Visual Genome上进行了实验与对比分析,结果表明,所提出方法在不同K值下的召回率均优于现有最先进技术:当K = 20、50、100时,本方法的R@K分别为29.89、35.40、39.12,而对比方法分别为25.80、33.30、37.80。在下游图像生成任务中的定性结果进一步显示,基于常识知识构建的场景图能够生成更为逼真的图像。上述结果充分证明了将常识知识融入场景图生成过程,在提升其性能与表达能力方面具有显著有效性,为视觉理解与推理任务提供了有力支持。