
摘要
在这项工作中,我们提出了一种新颖的端到端多阶段知识图谱(Knowledge Graph, KG)生成系统,该系统从文本输入中提取知识图谱,并将整个过程分为两个阶段。首先,使用预训练语言模型生成图节点,然后通过一个简单的边构建模块完成图的构建,从而实现高效的知识图谱提取。针对每个阶段,我们考虑了多种架构选择,这些选择可以根据可用的训练资源进行调整。我们在最近的WebNLG 2020挑战数据集上对模型进行了评估,在文本到RDF生成任务上达到了与现有最先进方法相当的性能,并在《纽约时报》(New York Times, NYT)和大规模TekGen数据集上展示了强大的整体性能,超过了现有的基线方法。我们认为所提出的系统可以作为现有线性化或基于采样的图生成方法的一种可行替代方案。我们的代码可以在https://github.com/IBM/Grapher 获取。