HyperAI超神経

IEPile大規模情報抽出コーパス 

日付

1年前

サイズ

1.83 MB

組織

浙江大学

公開URL

github.com

IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データ セットであり、固有表現認識 (NER)、関係抽出 (RE) の 3 つの中核領域をカバーしています。およびイベント抽出 (EE)。データセットには、一般用途、医療、金融などの複数の分野をカバーする約 200 万の指示サンプル、合計約 3 億 2,000 万のトークンが含まれています。

研究チームは、英語 26 個と中国語 7 個の IE データセットを慎重に統合し、高品質を確保するために、否定が困難なサンプル辞書の構築とポーリング命令の生成を含む、提案された「スキーマベースのポーリング命令構築方法」を採用しました。データセットの品質。 IEPile の構築により、情報抽出タスクにおける大規模モデルのパフォーマンス、特にゼロサンプル汎化機能が大幅に向上し、情報抽出研究に貴重なリソースが提供されます。

IEPile.torrent
シーディング 4ダウンロード中 0ダウンロード完了 194総ダウンロード数 444
  • IEPile/
    • README.md
      1.47 KB
    • README.txt
      2.94 KB
      • data/
        • IEPile-main.zip
          1.83 MB