HyperAIHyperAI

Command Palette

Search for a command to run...

DuIE 大規模中国語情報抽出データセット

日付

4年前

サイズ

242.66 MB

データセット構成

Baidu

公開URL

ai.baidu.com

ライセンス

Non-Commercial

DuIE は、アーキテクチャベースの知識抽出アルゴリズムを評価するために使用できる、人間が注釈を付けた大規模なデータセットです。 データセットには、事前に指定された構造と 49 種類の述語で構成される 450,000 を超える SPO トリプル (つまり、主語-述語-目的語トリプル) が含まれる 210,000 を超える実際の中国語文が含まれています。 このデータセット内のすべての文は、Baidu Encyclopedia と Baidu News Search から抽出されたものです。このデータセット内のテキストは、ニュース、エンターテイメント、ユーザー生成コンテンツなど、現実世界のアプリケーションのさまざまな領域をカバーしています。 データセットは次のデータで構成されます。

  • 214,590 文、そのうち:
  • 172,983 文がトレーニング セットです。
  • 21,626 文が開発セットです。
  • 19,981 文がテストセットです。
  • 457,866 件のインスタンス、そのうち:
  • 363,960 のインスタンスがトレーニング セットです。
  • 45,558 個のインスタンスが開発セットに含まれています。
  • 48,348 インスタンスがテスト セットです。 データ例:
DuIE.torrent
シーディング 2ダウンロード中 0完了 654総ダウンロード数 1,451
  • DuIE/
    • README.md
      1.53 KB
    • README.txt
      3.07 KB
      • data/
        • dev_data.json
          27.1 MB
        • all_50_schemas
          6.94 KB
        • train_data.json
          242.66 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DuIE 大規模中国語情報抽出データセット | データセット | HyperAI超神経