HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Extract-0文書情報抽出データセット

Date

2ヶ月前

Size

55.5 MB

Organization

インテリ

Paper URL

2509.22906

License

Apache 2.0

Extract-0は、文書情報抽出タスク用に設計された高品質のトレーニングおよび評価データセットであり、2025年にInteliによってリリースされました。関連する論文の結果は次のとおりです。Extract-0: 文書情報抽出のための特殊言語モデル」は、複雑な抽出タスクにおける小規模パラメータモデルのパフォーマンス最適化の研究を支援することを目的としています。

このデータセットには、34,761個の文書チャンクから抽出された280,128件の文書抽出例が含まれています。各例の平均長さは約532~1900トークンで、様々なデータ構造(オブジェクト、配列、文字列、日付、数値など)をカバーしています。データは、arXivの学術論文、PubMed Central、Wikipediaのエントリ、FDA(米国食品医薬品局)データベースから収集されたテキストデータに基づいています。各例は、元の文書フラグメント、対応するスキーマベースの抽出タスク、そして構造化された出力で構成されており、複数のドメインとフォーマットにわたる統一された抽出トレーニング標準を提供します。

Extract-0.torrent
Seeding 2Downloading 0Completed 20Total Downloads 73
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています