DuIE 大规模中文信息抽取数据集
DuIE 是一个大规模的人工标注数据集,可用来评估基于架构的知识抽取算法。
该数据集包含超过 21 万个现实世界的中文句子,其中涉及超过 45 万个 SPO 三元组(即:Subject-Predicate-Object triples),由预先指定的架构与 49 种谓语组成。
该数据集中的所有句子都是从百度百科和百度新闻搜索中提取的。该数据集中的文本涵盖了现实世界应用程序中的各种领域,例如新闻、娱乐、用户生成的内容。
该数据集由以下数据组成:
- 214,590 个句子,其中:
- 172,983 句为训练集;
- 21,626 句为开发集;
- 19,981 句为测试集。
- 457,866 个实例,其中:
- 363,960 个实例为训练集;
- 45,558 个实例为开发集;
- 48,348 个实例为测试集。
示例数据:

DuIE.torrent
做种 1正在下载 1已完成 434总下载次数 1,097