DuIE は、アーキテクチャベースの知識抽出アルゴリズムを評価するために使用できる、人間が注釈を付けた大規模なデータセットです。
データセットには、事前に指定された構造と 49 種類の述語で構成される 450,000 を超える SPO トリプル (つまり、主語-述語-目的語トリプル) が含まれる 210,000 を超える実際の中国語文が含まれています。
このデータセット内のすべての文は、Baidu Encyclopedia と Baidu News Search から抽出されたものです。このデータセット内のテキストは、ニュース、エンターテイメント、ユーザー生成コンテンツなど、現実世界のアプリケーションのさまざまな領域をカバーしています。
データセットは次のデータで構成されます。
データ例:
做种 1
下载中 0
已完成 393
总下载 1,065