The Children’s Book Test 问答数据集

CBT 数据集由文字段落和相应问题构建,问答数据均来自古腾堡项目免费提供的书籍,该数据集用于直接测量语言模型、更广泛的语言环境用于问答和仿真查找。 CBT 数据集由 Facebook 于 2016 年发布,主要发布人有 Felix Hill、Antoine Bordes、Sumi…

Maluuba NewsQA 机器阅读理解数据集

Maluuba News QA 是一种用于机器阅读理解的数据集,其包含开发能够回答人类问题和推理问题的相关算法,该数据集包含 12 万问答对,均基于人类自然语言编写。 Maluuba News QA 数据集由微软于 2016 年发布,相关论文有《NewsQA: A Machine…

MSMARCO 机器阅读理解数据集

MSMARCO 是机器阅读理解数据集,其包含的 1,010,916 个匿名问题均来自 Bing 的搜索查询日志,日志中均包含 AI 生成的答案和 182,669 条人为重写的答案,该数据集还包含从 3,563,535 个文档中提取的 8,841,823 个段落。 MSMARCO …

bAbi 问答和文本理解的数据集

The QA bAbI tasks 是 bAbI 项目中的用于问答和文本理解的训练数据集,其被用于测试文本理解和推理中第一组的 20 个任务,每项任务中均有 1000 个问题用于培训、1000 个问题用于测试。 该数据集由一组上下文组成,基于上下文可以使用多个问答对,目前有以下几…

SQuAD 斯坦福问答数据集

SQuAD(The Stanford Question Answering Dataset) 是一组阅读数据集,该数据集基于群众在维基百科中提出的问题,其中每个问题的答案来自于对应阅读段落的一段文本,共计 500 多篇文章中的 10 万多个问答配对。 SQuAD 由斯坦福大学于 …

Question Answer Dataset v1.2 问答数据集

Question Answer Dataset 是结合维基百科文章语料库的链接,并手动生成仿真问题和答案以供学术研究的问答数据集。该数据集分为文章、问题和答案三部分,其中手动生成的仿真问题与答案对维基百科文章的评分难度很高。 Question Answer Dataset 由卡内…