17 天前

UNIQORN:面向RDF知识图谱与自然语言文本的统一问答

Soumajit Pramanik, Jesujoba Alabi, Rishiraj Saha Roy, Gerhard Weikum
UNIQORN:面向RDF知识图谱与自然语言文本的统一问答
摘要

基于RDF数据(如知识图谱)的问答技术已取得显著进展,涌现出多个优秀系统,能够为自然语言问题或简略查询提供清晰明确的答案。部分系统在回答过程中引入文本资料作为额外证据,但无法处理仅依赖文本即可得出答案的情况。相反,信息检索(IR)与自然语言处理(NLP)领域虽已针对文本问答开展研究,但这类系统极少利用语义数据或知识资源。本文提出一种面向复杂问题的统一方法,可在融合RDF数据集与文本语料库的混合环境,或单独使用任一数据源的情况下,实现无缝运行。该方法名为UNIQORN,通过使用微调过的BERT模型,实时从RDF数据和/或文本语料库中检索与问题相关的证据,构建上下文图(context graph)。所生成的图通常包含所有与问题相关的信息,但也包含大量噪声。为应对这一挑战,UNIQORN采用基于图的Group Steiner Tree算法,在上下文图中识别最优的答案候选。在多个涉及多实体与多关系的复杂问题基准测试中,实验结果表明,UNIQORN在全训练模式下以及零样本(zero-shot)设置中,均显著优于当前最先进的异构问答(heterogeneous QA)方法。该基于图的框架还为整个问答过程提供了用户可理解的证据支持,增强了系统的可解释性。