11 天前

QALD-9-plus:基于DBpedia和Wikidata的多语言问答数据集,由母语者翻译而成

Aleksandr Perevalov, Dennis Diefenbach, Ricardo Usbeck, Andreas Both
QALD-9-plus:基于DBpedia和Wikidata的多语言问答数据集,由母语者翻译而成
摘要

能够为不同用户群体提供一致使用体验(即可访问性)是基于Web系统的最重要特征之一。这一原则同样适用于知识图谱问答(KGQA)系统,这类系统通过自然语言接口实现对语义网数据的访问。在推进KGQA系统多语言可访问性研究的过程中,我们识别出若干持续存在的挑战。其中一项关键挑战是缺乏多语言KGQA评估基准。为此,本文在目前最流行的KGQA基准之一——QALD-9的基础上进行了扩展:引入由母语者提供的8种语言的高质量问题翻译,并将QALD-9中的SPARQL查询从DBpedia迁移至Wikidata,从而显著提升了数据集的可用性与相关性。其中,亚美尼亚语、乌克兰语、立陶宛语、巴什基尔语和白俄罗斯语这五种语言,在我们所知范围内,此前从未被纳入KGQA研究领域。值得注意的是,后两种语言(白俄罗斯语与巴什基尔语)已被联合国教科文组织列为“濒危语言”。我们将其扩展后的数据集命名为QALD-9-plus,并已公开发布于GitHub平台:https://github.com/Perevalov/qald_9_plus。

QALD-9-plus:基于DBpedia和Wikidata的多语言问答数据集,由母语者翻译而成 | 最新论文 | HyperAI超神经