Command Palette

Search for a command to run...

Extract-0文書情報抽出データセット

日付

19日前

サイズ

55.5 MB

組織

インテリ

論文URL

2509.22906

ライセンス

Apache 2.0

Extract-0は、文書情報抽出タスク用に設計された高品質のトレーニングおよび評価データセットであり、2025年にInteliによってリリースされました。関連する論文の結果は次のとおりです。Extract-0: 文書情報抽出のための特殊言語モデル」は、複雑な抽出タスクにおける小規模パラメータモデルのパフォーマンス最適化の研究を支援することを目的としています。

このデータセットには、34,761個の文書チャンクから抽出された280,128件の文書抽出例が含まれています。各例の平均長さは約532~1900トークンで、様々なデータ構造(オブジェクト、配列、文字列、日付、数値など)をカバーしています。データは、arXivの学術論文、PubMed Central、Wikipediaのエントリ、FDA(米国食品医薬品局)データベースから収集されたテキストデータに基づいています。各例は、元の文書フラグメント、対応するスキーマベースの抽出タスク、そして構造化された出力で構成されており、複数のドメインとフォーマットにわたる統一された抽出トレーニング標準を提供します。

Extract-0.torrent
シーディング 1ダウンロード中 0ダウンロード完了 10総ダウンロード数 25
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Extract-0文書情報抽出データセット | データセット | HyperAI超神経