@misc{godoy2025extract0specializedlanguagemodel, title={Extract-0: A Specialized Language Model for Document Information Extraction}, author={Henrique Godoy}, year={2025}, eprint={2509.22906}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.22906}, }

日付

8ヶ月前

サイズ

55.5 MB

データセット構成

論文URL

2509.22906

ライセンス

Apache 2.0

タグ

自然言語処理

強化学習

Extract-0は、文書情報抽出タスク用に設計された高品質のトレーニングおよび評価データセットであり、2025年にInteliによってリリースされました。関連する論文の結果は次のとおりです。Extract-0: 文書情報抽出のための特殊言語モデル」は、複雑な抽出タスクにおける小規模パラメータモデルのパフォーマンス最適化の研究を支援することを目的としています。このデータセットには、34,761個の文書チャンクから抽出された280,128件の文書抽出例が含まれています。各例の平均長さは約532～1900トークンで、様々なデータ構造（オブジェクト、配列、文字列、日付、数値など）をカバーしています。データは、arXivの学術論文、PubMed Central、Wikipediaのエントリ、FDA（米国食品医薬品局）データベースから収集されたテキストデータに基づいています。各例は、元の文書フラグメント、対応するスキーマベースの抽出タスク、そして構造化された出力で構成されており、複数のドメインとフォーマットにわたる統一された抽出トレーニング標準を提供します。

引用

@misc{godoy2025extract0specializedlanguagemodel,
title={Extract-0: A Specialized Language Model for Document Information Extraction},
author={Henrique Godoy},
year={2025},
eprint={2509.22906},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.22906},
}

Extract-0.torrent

シーディング 1ダウンロード中 0完了 51総ダウンロード数 173

Extract-0/
- README.md
  1.67 KB
- README.txt
  3.34 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

ダウンロード

Discordで議論

日付

8ヶ月前

サイズ

55.5 MB

データセット構成

論文URL

2509.22906

ライセンス

Apache 2.0

タグ

自然言語処理

強化学習

引用

@misc{godoy2025extract0specializedlanguagemodel,
title={Extract-0: A Specialized Language Model for Document Information Extraction},
author={Henrique Godoy},
year={2025},
eprint={2509.22906},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.22906},
}

Extract-0.torrent

シーディング 1ダウンロード中 0完了 51総ダウンロード数 173

Extract-0/
- README.md
  1.67 KB
- README.txt
  3.34 KB

MAKIEVAL 多言語文化知識評価データセット

2時間前

逐語的スパンクエリ条件証拠抽出データセット

5時間後

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

2時間後

FigureBench科学イラスト生成ベンチマークデータセット

1時間後

ノイズの多い医療文書画像データセット

1日前

TACKターゲットキメラ知識ベースデータセット

15日前

SMOL多言語翻訳並列データセット

19日前

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

6日前

MemLensマルチモーダル長コンテキストベンチマークデータセット

19日前

LongBlocks 長文コンテキスト多言語質問応答データセット

1ヶ月前

Claw-Eval実世界ベンチマークデータセット

1ヶ月前

眼底疾患分類データセット

1ヶ月前

QCalEval 量子較正グラフの理解データセット

2ヶ月前

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

1日前

ParseBench文書解析能力評価データセット

2ヶ月前

MDPBench 多言語文書解析ベンチマークデータセット

1日前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

Extract-0文書情報抽出データセット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

Extract-0文書情報抽出データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

ノイズの多い医療文書画像データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

LongBlocks 長文コンテキスト多言語質問応答データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

ParseBench文書解析能力評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

Command Palette

Extract-0文書情報抽出データセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

ノイズの多い医療文書画像データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

LongBlocks 長文コンテキスト多言語質問応答データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

ParseBench文書解析能力評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

ノイズの多い医療文書画像データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

LongBlocks 長文コンテキスト多言語質問応答データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

ParseBench文書解析能力評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

FigureBench科学イラスト生成ベンチマークデータセット

ノイズの多い医療文書画像データセット

TACKターゲットキメラ知識ベースデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

LongBlocks 長文コンテキスト多言語質問応答データセット

Claw-Eval実世界ベンチマークデータセット

眼底疾患分類データセット

QCalEval 量子較正グラフの理解データセット