DuIE 大规模中文信息抽取数据集

日期

2 年前

大小

242.66 MB

机构

Baidu

发布地址

ai.baidu.com

许可协议

非商业用途

DuIE 是一个大规模的人工标注数据集,可用来评估基于架构的知识抽取算法。

该数据集包含超过 21 万个现实世界的中文句子,其中涉及超过 45 万个 SPO 三元组(即:Subject-Predicate-Object triples),由预先指定的架构与 49 种谓语组成。

该数据集中的所有句子都是从百度百科和百度新闻搜索中提取的。该数据集中的文本涵盖了现实世界应用程序中的各种领域,例如新闻、娱乐、用户生成的内容。

该数据集由以下数据组成:

  • 214,590 个句子,其中:
    • 172,983 句为训练集;
    • 21,626 句为开发集;
    • 19,981 句为测试集。
  • 457,866 个实例,其中:
    • 363,960 个实例为训练集;
    • 45,558 个实例为开发集;
    • 48,348 个实例为测试集。

示例数据:

DuIE.torrent

做种 2

下载中 0

已完成 283

总下载 806

  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB