Command Palette
Search for a command to run...
Extract-0文書情報抽出データセット
Extract-0は、文書情報抽出タスク用に設計された高品質のトレーニングおよび評価データセットであり、2025年にInteliによってリリースされました。関連する論文の結果は次のとおりです。Extract-0: 文書情報抽出のための特殊言語モデル」は、複雑な抽出タスクにおける小規模パラメータモデルのパフォーマンス最適化の研究を支援することを目的としています。
このデータセットには、34,761個の文書チャンクから抽出された280,128件の文書抽出例が含まれています。各例の平均長さは約532~1900トークンで、様々なデータ構造(オブジェクト、配列、文字列、日付、数値など)をカバーしています。データは、arXivの学術論文、PubMed Central、Wikipediaのエントリ、FDA(米国食品医薬品局)データベースから収集されたテキストデータに基づいています。各例は、元の文書フラグメント、対応するスキーマベースの抽出タスク、そして構造化された出力で構成されており、複数のドメインとフォーマットにわたる統一された抽出トレーニング標準を提供します。
Extract-0.torrent
シーディング 1ダウンロード中 0ダウンロード完了 10総ダウンロード数 25