ダウンロード

Discordで議論

日付

2年前

サイズ

1.83 MB

データセット構成

公開URL

タグ

自然言語処理

マルチタスク学習

IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データセットであり、固有表現認識 (NER)、関係抽出 (RE) の 3 つの中核領域をカバーしています。およびイベント抽出 (EE)。データセットには、一般用途、医療、金融などの複数の分野をカバーする約 200 万の指示サンプル、合計約 3 億 2,000 万のトークンが含まれています。研究チームは、英語 26 個と中国語 7 個の IE データセットを慎重に統合し、高品質を確保するために、否定が困難なサンプル辞書の構築とポーリング命令の生成を含む、提案された「スキーマベースのポーリング命令構築方法」を採用しました。データセットの品質。 IEPile の構築により、情報抽出タスクにおける大規模モデルのパフォーマンス、特にゼロサンプル汎化機能が大幅に向上し、情報抽出研究に貴重なリソースが提供されます。

引用

@article{DBLP:journals/corr/abs-2402-14710, 著者 = {Honghao Gui および林元とホンビン・イェさんと張寧宇さんと孫孟叔とレイ・リャンとチェン・ホアジュン}、タイトル = {IEPile: 大規模なスキーマベースの情報抽出の解明コーパス}、ジャーナル = {CoRR}、ボリューム = {abs/2402.14710}、年 = {2024}、 url = {https://doi.org/10.48550/arXiv.2402.14710}, ドイ = {10.48550/ARXIV.2402.14710}、 eprinttype = {arXiv}、 eprint = {2402.14710}、タイムスタンプ = {火、2024年4月9日 07:32:43 +0200}、 biburl = {https://dblp.org/rec/journals/corr/abs-2402-14710.bib}, bibsource = {dblp コンピュータサイエンス参考文献、https://dblp.org} }

IEPile.torrent

シーディング 2ダウンロード中 0完了 393総ダウンロード数 817

IEPile/
- README.md
  1.47 KB
- README.txt
  2.94 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ダウンロード

Discordで議論

日付

2年前

サイズ

1.83 MB

データセット構成

公開URL

github.com

タグ

自然言語処理

マルチタスク学習

IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データセットであり、固有表現認識 (NER)、関係抽出 (RE) の 3 つの中核領域をカバーしています。およびイベント抽出 (EE)。データセットには、一般用途、医療、金融などの複数の分野をカバーする約 200 万の指示サンプル、合計約 3 億 2,000 万のトークンが含まれています。研究チームは、英語 26 個と中国語 7 個の IE データセットを慎重に統合し、高品質を確保するために、否定が困難なサンプル辞書の構築とポーリング命令の生成を含む、提案された「スキーマベースのポーリング命令構築方法」を採用しました。データセットの品質。 IEPile の構築により、情報抽出タスクにおける大規模モデルのパフォーマンス、特にゼロサンプル汎化機能が大幅に向上し、情報抽出研究に貴重なリソースが提供されます。

引用

@article{DBLP:journals/corr/abs-2402-14710, 著者 = {Honghao Gui および林元とホンビン・イェさんと張寧宇さんと孫孟叔とレイ・リャンとチェン・ホアジュン}、タイトル = {IEPile: 大規模なスキーマベースの情報抽出の解明コーパス}、ジャーナル = {CoRR}、ボリューム = {abs/2402.14710}、年 = {2024}、 url = {https://doi.org/10.48550/arXiv.2402.14710}, ドイ = {10.48550/ARXIV.2402.14710}、 eprinttype = {arXiv}、 eprint = {2402.14710}、タイムスタンプ = {火、2024年4月9日 07:32:43 +0200}、 biburl = {https://dblp.org/rec/journals/corr/abs-2402-14710.bib}, bibsource = {dblp コンピュータサイエンス参考文献、https://dblp.org} }

IEPile.torrent

シーディング 2ダウンロード中 0完了 393総ダウンロード数 817

IEPile/
- README.md
  1.47 KB
- README.txt
  2.94 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています