7 天前
CoSQL:面向跨领域数据库自然语言接口的对话式文本到SQL挑战
Tao Yu, Rui Zhang, He Yang Er, Suyi Li, Eric Xue, Bo Pang, Xi Victoria Lin, Yi Chern Tan, Tianze Shi, Zihan Li, Youxuan Jiang, Michihiro Yasunaga, Sungrok Shim, Tao Chen, Alexander Fabbri, Zifan Li, Luyao Chen, Yuwen Zhang, Shreya Dixit, Vincent Zhang, Caiming Xiong, Richard Socher, Walter S Lasecki, Dragomir Radev

摘要
我们提出 CoSQL,这是一个用于构建跨领域、通用型数据库(DB)查询对话系统的大规模语料库。该语料库包含超过3万次对话轮次及超过1万条人工标注的SQL查询语句,数据来源于3000场通过“巫师之 Oz(Wizard-of-Oz, WOZ)”方法收集的对话,这些对话针对200个涵盖138个不同领域的复杂数据库进行查询。每场对话模拟真实的数据库查询场景:一名众包工作者扮演用户,探索数据库;一位SQL专家则负责通过执行SQL语句获取答案、澄清模糊问题,或说明某些问题无法回答。当用户的问题可通过SQL求解时,专家会向用户解释相应的SQL语句及其执行结果,从而维持自然流畅的交互流程。与现有的任务导向型对话数据集相比,CoSQL引入了若干新挑战:(1)对话状态基于SQL这一与领域无关的可执行表示形式,而非特定领域的槽位-值对;(2)由于测试阶段使用的是未见过的数据库,系统的成功依赖于对新领域的泛化能力。CoSQL包含三个核心任务:基于SQL的对话状态追踪、从查询结果生成响应,以及用户对话行为(dialogue act)预测。我们为每一项任务设置了若干强基线模型,并验证表明,CoSQL为未来的研究带来了显著挑战。该数据集、基线模型及排行榜将公开发布于 https://yale-lily.github.io/cosql。