HyperAIHyperAI

Command Palette

Search for a command to run...

DuIE 大规模中文信息抽取数据集

Date

3 年前

Size

242.66 MB

Organization

Baidu

Publish URL

ai.baidu.com

License

Non-Commercial

DuIE 是一个大规模的人工标注数据集,可用来评估基于架构的知识抽取算法。

该数据集包含超过 21 万个现实世界的中文句子,其中涉及超过 45 万个 SPO 三元组(即:Subject-Predicate-Object triples),由预先指定的架构与 49 种谓语组成。

该数据集中的所有句子都是从百度百科和百度新闻搜索中提取的。该数据集中的文本涵盖了现实世界应用程序中的各种领域,例如新闻、娱乐、用户生成的内容。

该数据集由以下数据组成:

  • 214,590 个句子,其中:
    • 172,983 句为训练集;
    • 21,626 句为开发集;
    • 19,981 句为测试集。
  • 457,866 个实例,其中:
    • 363,960 个实例为训练集;
    • 45,558 个实例为开发集;
    • 48,348 个实例为测试集。

示例数据:

DuIE.torrent
Seeding 2Downloading 0Completed 620Total Downloads 1,395
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供