2 个月前

CoQA、SQuAD 2.0 和 QuAC 的定性比较

Mark Yatskar
CoQA、SQuAD 2.0 和 QuAC 的定性比较
摘要

我们比较了三个新的问答数据集:SQuAD 2.0、QuAC 和 CoQA,以及它们的几个新特性:(1)不可回答的问题,(2)多轮交互,(3)抽象答案。研究结果表明,这些数据集在前两个方面提供了互补的覆盖,但在第三个方面覆盖较弱。由于这些数据集的结构相似性,单一的抽取式模型可以轻松适应任何一个数据集,我们在 SQuAD 2.0 和 CoQA 上展示了改进的基线结果。尽管存在相似性,但在一个数据集上训练的模型在另一个数据集上的表现不佳,不过我们发现通过预训练可以适度提高性能。为了鼓励跨数据集评估,我们发布了代码以实现不同数据集之间的转换,代码地址为:https://github.com/my89/co-squac 。