HyperAI超神経

DuIE 大規模中国語情報抽出データセット

日付

3年前

サイズ

242.66 MB

組織

百度

公開URL

ai.baidu.com

ライセンス

非商业用途

DuIE は、アーキテクチャベースの知識抽出アルゴリズムを評価するために使用できる、人間が注釈を付けた大規模なデータセットです。

データセットには、事前に指定された構造と 49 種類の述語で構成される 450,000 を超える SPO トリプル (つまり、主語-述語-目的語トリプル) が含まれる 210,000 を超える実際の中国語文が含まれています。

このデータセット内のすべての文は、Baidu Encyclopedia と Baidu News Search から抽出されたものです。このデータセット内のテキストは、ニュース、エンターテイメント、ユーザー生成コンテンツなど、現実世界のアプリケーションのさまざまな領域をカバーしています。

データセットは次のデータで構成されます。

  • 214,590 文、そのうち:
    • 172,983 文がトレーニング セットです。
    • 21,626 文が開発セットです。
    • 19,981 文がテストセットです。
  • 457,866 件のインスタンス、そのうち:
    • 363,960 のインスタンスがトレーニング セットです。
    • 45,558 個のインスタンスが開発セットに含まれています。
    • 48,348 インスタンスがテスト セットです。

データ例:

DuIE.torrent
シーディング 1ダウンロード中 1ダウンロード完了 434総ダウンロード数 1,097
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • all_50_schemas
          6.94 KB
        • dev_data.json
          27.1 MB
        • train_data.json
          242.66 MB