2 个月前
Spider:一个大规模的人工标注数据集,用于复杂和跨领域的语义解析及文本到SQL任务
Tao Yu; Rui Zhang; Kai Yang; Michihiro Yasunaga; Dongxu Wang; Zifan Li; James Ma; Irene Li; Qingning Yao; Shanelle Roman; Zilin Zhang; Dragomir Radev

摘要
我们介绍了Spider,这是一个由11名大学生标注的大规模、复杂且跨领域的语义解析和文本到SQL数据集。该数据集包含200个多表数据库上的10,181个问题和5,693个独特的复杂SQL查询,涵盖了138个不同的领域。我们定义了一个新的复杂且跨领域的语义解析和文本到SQL任务,在训练集和测试集中出现了不同的复杂SQL查询和数据库。通过这种方式,任务要求模型能够很好地泛化到新的SQL查询和新的数据库模式。Spider与大多数先前的语义解析任务不同,因为后者都使用单一数据库,并且训练集和测试集中使用完全相同的程序。我们在各种最先进的模型上进行了实验,最好的模型在数据库分割设置下仅达到了12.4%的精确匹配准确率。这表明Spider对未来的研究提出了强有力的挑战。我们的数据集和任务已公开发布在https://yale-lily.github.io/spider