DuIE 大规模中文信息抽取数据集

数据集下载 磁力链 下载帮助

DuIE 是一个大规模的人工标注数据集,可用来评估基于架构的知识抽取算法。

该数据集包含超过 21 万个现实世界的中文句子,其中涉及超过 45 万个 SPO 三元组(即:Subject-Predicate-Object triples),由预先指定的架构与 49 种谓语组成。

该数据集中的所有句子都是从百度百科和百度新闻搜索中提取的。该数据集中的文本涵盖了现实世界应用程序中的各种领域,例如新闻、娱乐、用户生成的内容。

该数据集由以下数据组成:

  • 214,590 个句子,其中:
    • 172,983 句为训练集;
    • 21,626 句为开发集;
    • 19,981 句为测试集。
  • 457,866 个实例,其中:
    • 363,960 个实例为训练集;
    • 45,558 个实例为开发集;
    • 48,348 个实例为测试集。

示例数据:

1 做种 0 下载 14 已完成
  • DuIE/README.md 1.53 KB
  • DuIE/README.txt 1.53 KB
  • DuIE/data/all_50_schemas 3.87 KB
  • DuIE/data/dev_data.json 27.09 MB
  • DuIE/data/train_data.json 215.56 MB