DuIE 是一个大规模的人工标注数据集,可用来评估基于架构的知识抽取算法。
该数据集包含超过 21 万个现实世界的中文句子,其中涉及超过 45 万个 SPO 三元组(即:Subject-Predicate-Object triples),由预先指定的架构与 49 种谓语组成。
该数据集中的所有句子都是从百度百科和百度新闻搜索中提取的。该数据集中的文本涵盖了现实世界应用程序中的各种领域,例如新闻、娱乐、用户生成的内容。
该数据集由以下数据组成:
示例数据:
做种 1
下载中 0
已完成 372
总下载 1,041