DuIE 大規模中国語情報抽出データセット

日期

3 年前

大小

242.66 MB

机构

百度

发布地址

ai.baidu.com

许可协议

非商业用途

DuIE は、アーキテクチャベースの知識抽出アルゴリズムを評価するために使用できる、人間が注釈を付けた大規模なデータセットです。

データセットには、事前に指定された構造と 49 種類の述語で構成される 450,000 を超える SPO トリプル (つまり、主語-述語-目的語トリプル) が含まれる 210,000 を超える実際の中国語文が含まれています。

このデータセット内のすべての文は、Baidu Encyclopedia と Baidu News Search から抽出されたものです。このデータセット内のテキストは、ニュース、エンターテイメント、ユーザー生成コンテンツなど、現実世界のアプリケーションのさまざまな領域をカバーしています。

データセットは次のデータで構成されます。

  • 214,590 文、そのうち:
    • 172,983 文がトレーニング セットです。
    • 21,626 文が開発セットです。
    • 19,981 文がテストセットです。
  • 457,866 件のインスタンス、そのうち:
    • 363,960 のインスタンスがトレーニング セットです。
    • 45,558 個のインスタンスが開発セットに含まれています。
    • 48,348 インスタンスがテスト セットです。

データ例:

DuIE.torrent

做种 1

下载中 0

已完成 393

总下载 1,065

  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB