DuIE 大規模中国語情報抽出データセット
DuIE は、アーキテクチャベースの知識抽出アルゴリズムを評価するために使用できる、人間が注釈を付けた大規模なデータセットです。
データセットには、事前に指定された構造と 49 種類の述語で構成される 450,000 を超える SPO トリプル (つまり、主語-述語-目的語トリプル) が含まれる 210,000 を超える実際の中国語文が含まれています。
このデータセット内のすべての文は、Baidu Encyclopedia と Baidu News Search から抽出されたものです。このデータセット内のテキストは、ニュース、エンターテイメント、ユーザー生成コンテンツなど、現実世界のアプリケーションのさまざまな領域をカバーしています。
データセットは次のデータで構成されます。
- 214,590 文、そのうち:
- 172,983 文がトレーニング セットです。
- 21,626 文が開発セットです。
- 19,981 文がテストセットです。
- 457,866 件のインスタンス、そのうち:
- 363,960 のインスタンスがトレーニング セットです。
- 45,558 個のインスタンスが開発セットに含まれています。
- 48,348 インスタンスがテスト セットです。
データ例:

DuIE.torrent
シーディング 1ダウンロード中 1ダウンロード完了 434総ダウンロード数 1,097