HyperAIHyperAI

Command Palette

Search for a command to run...

Extract-0文書情報抽出データセット

日付

4ヶ月前

サイズ

55.5 MB

データセット構成

インテリ

Paper URL

2509.22906

ライセンス

Apache 2.0

Extract-0は、文書情報抽出タスク用に設計された高品質のトレーニングおよび評価データセットであり、2025年にInteliによってリリースされました。関連する論文の結果は次のとおりです。Extract-0: 文書情報抽出のための特殊言語モデル」は、複雑な抽出タスクにおける小規模パラメータモデルのパフォーマンス最適化の研究を支援することを目的としています。

このデータセットには、34,761個の文書チャンクから抽出された280,128件の文書抽出例が含まれています。各例の平均長さは約532~1900トークンで、様々なデータ構造(オブジェクト、配列、文字列、日付、数値など)をカバーしています。データは、arXivの学術論文、PubMed Central、Wikipediaのエントリ、FDA(米国食品医薬品局)データベースから収集されたテキストデータに基づいています。各例は、元の文書フラグメント、対応するスキーマベースの抽出タスク、そして構造化された出力で構成されており、複数のドメインとフォーマットにわたる統一された抽出トレーニング標準を提供します。

Extract-0.torrent
シーディング 1ダウンロード中 0完了 30総ダウンロード数 102
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています