IEPile は、浙江大学によって開発された大規模で高品質のバイリンガル (中国語と英語) の情報抽出 (IE) 命令微調整データ セットであり、固有表現認識 (NER)、関係抽出 (RE) の 3 つの中核領域をカバーしています。およびイベント抽出 (EE)。データセットには、一般用途、医療、金融などの複数の分野をカバーする約 200 万の指示サンプル、合計約 3 億 2,000 万のトークンが含まれています。
研究チームは、英語 26 個と中国語 7 個の IE データセットを慎重に統合し、高品質を確保するために、否定が困難なサンプル辞書の構築とポーリング命令の生成を含む、提案された「スキーマベースのポーリング命令構築方法」を採用しました。データセットの品質。 IEPile の構築により、情報抽出タスクにおける大規模モデルのパフォーマンス、特にゼロサンプル汎化機能が大幅に向上し、情報抽出研究に貴重なリソースが提供されます。
做种 1
下载中 1
已完成 128
总下载 374