11 天前

KaggleDBQA:面向文本到SQL解析器的现实评估

Chia-Hsuan Lee, Oleksandr Polozov, Matthew Richardson
KaggleDBQA:面向文本到SQL解析器的现实评估
摘要

数据库问答的目标是实现对现实世界中各类应用领域的关系型数据库进行自然语言查询。近年来,Spider 和 WikiSQL 等大规模数据集推动了文本到 SQL 解析的新建模技术的发展,显著提升了模型在未见数据库上的零样本泛化能力。在本研究中,我们深入探讨了当前技术在实际部署中仍面临的关键挑战。首先,我们提出了 KaggleDBQA——一个全新的跨领域真实网络数据库评估数据集,该数据集包含领域特定的数据类型、原始数据格式以及开放式的自然语言问题。其次,我们重新审视了文本到 SQL 解析器在真实应用场景中所采用的评估任务设计的合理性。最后,我们在域内评估任务中引入了数据库文档这一自然存在的隐式领域知识来源。实验结果表明,KaggleDBQA 对当前最先进的零样本解析器构成了显著挑战,而通过采用更贴近实际的评估设置并创造性地利用相关数据库文档,模型的准确率提升了超过 13.2%,性能实现翻倍。

KaggleDBQA:面向文本到SQL解析器的现实评估 | 最新论文 | HyperAI超神经