CJRC 中文法律阅读理解数据集

CJRC 全称 Chinese judicial reading comprehension,包含约 10,000 篇文档,主要涉及民事一审判决书和刑事一审判决书。通过抽取裁判文书的事实描述内容,针对事实描述内容标注问题,最终形成约 50,000 个问答对。

CMRC 2019 中文机器阅读理解数据集

CMRC 2019 是一个中文机器阅读理解数据集,用于第三届“讯飞杯”中文机器阅读理解评测 (CMRC 2019)。具体来说,CMRC 2019 是一个句子级填空型阅读理解数据集,旨在评估句子级推理能力。 该数据集由以下子集组成: 集合篇章数问题数标注形式是否公开试验集(Tria…

WikiLinks 维基百科链接数据集

WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体(或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。 数据集包括…

HotpotQA 问答数据集

HotpotQA 数据集是一个在英文维基百科上收集的大规模问答数据集,包括 11.3 万个众包问题,要回答这些问题,需要参照两篇维基百科文章的介绍段落。每个问题都包含两个黄金段落 (gold paragraph) 以及部分段落中的句子列表,这些句子列表中提供的支持性事实,被认定为…

SAOKE 人工标注数据集

SAOKE 全称 Symbol Aided Open Knowledge Expression,是一个人工标注数据集,包含 4 万多个中文句子和 SAOKE 形式的相应事实,是开放域信息抽取任务中,最大的公开可用的人工标注数据集。 该数据集具有以下优点: 数据真实且开放使用:遵循…

Multi-Domain Sentiment Dataset v2.0 多域情感分析数据集

Multi-Domain Sentiment Dataset 是一个多域情感分析数据集,它收集了来自亚马逊平台不同类别产品(即域)的评价,某些产品(如书籍和 DVD )有数十万条评论,其他产品(如乐器)评论数量只有几百条,这些买家评价包含了星级评分( 1 星-5 星)、买家用户名…