IEPile大規模情報抽出コーパス 

日期

9 个月前

大小

1.83 MB

机构

浙江大学

发布地址

github.com

IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データ セットであり、固有表現認識 (NER)、関係抽出 (RE) の 3 つの中核領域をカバーしています。およびイベント抽出 (EE)。データセットには、一般用途、医療、金融などの複数の分野をカバーする約 200 万の指示サンプル、合計約 3 億 2,000 万のトークンが含まれています。

研究チームは、英語 26 個と中国語 7 個の IE データセットを慎重に統合し、高品質を確保するために、否定が困難なサンプル辞書の構築とポーリング命令の生成を含む、提案された「スキーマベースのポーリング命令構築方法」を採用しました。データセットの品質。 IEPile の構築により、情報抽出タスクにおける大規模モデルのパフォーマンス、特にゼロサンプル汎化機能が大幅に向上し、情報抽出研究に貴重なリソースが提供されます。

IEPile.torrent

做种 1

下载中 1

已完成 128

总下载 374

  • IEPile/
    • README.md
      1.47 KB
    • README.txt
      2.94 KB
      • data/
        • IEPile-main.zip
          1.83 MB