Command Palette
Search for a command to run...
Extract-0文書情報抽出データセット
Extract-0は、文書情報抽出タスク用に設計された高品質のトレーニングおよび評価データセットであり、2025年にInteliによってリリースされました。関連する論文の結果は次のとおりです。Extract-0: 文書情報抽出のための特殊言語モデル」は、複雑な抽出タスクにおける小規模パラメータモデルのパフォーマンス最適化の研究を支援することを目的としています。 このデータセットには、34,761個の文書チャンクから抽出された280,128件の文書抽出例が含まれています。各例の平均長さは約532~1900トークンで、様々なデータ構造(オブジェクト、配列、文字列、日付、数値など)をカバーしています。データは、arXivの学術論文、PubMed Central、Wikipediaのエントリ、FDA(米国食品医薬品局)データベースから収集されたテキストデータに基づいています。各例は、元の文書フラグメント、対応するスキーマベースの抽出タスク、そして構造化された出力で構成されており、複数のドメインとフォーマットにわたる統一された抽出トレーニング標準を提供します。
引用
@misc{godoy2025extract0specializedlanguagemodel,
title={Extract-0: A Specialized Language Model for Document Information Extraction},
author={Henrique Godoy},
year={2025},
eprint={2509.22906},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.22906},
}