HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Extract-0 文档信息提取数据集

Date

2 个月前

Size

55.5 MB

Organization

Inteli

Paper URL

2509.22906

License

Apache 2.0

Extract-0 由 Inteli 于 2025 年发布的一个专为文档信息抽取任务设计的高质量训练与评测数据集,相关论文成果为「Extract-0: A Specialized Language Model for Document Information Extraction」,旨在支持小规模参数模型在复杂抽取任务中的性能优化研究。

该数据集共包含 280,128 条文档抽取示例,源自 34,761 个文档块(text chunk),每个样本平均长度约为 532–1900 个 token,覆盖多种数据结构类型(如对象、数组、字符串、日期与数值)。数据来自 arXiv 学术论文、 PubMed Central 医学文献数据库、维基百科条目以及 FDA(美国食品药品监督管理局)数据库的文本数据。每个样本均由原始文档片段与其对应的基于模式(schema-based)抽取任务 及结构化输出组成,从而在多领域、多格式文档中提供统一的抽取训练标准。

Extract-0.torrent
Seeding 1Downloading 0Completed 20Total Downloads 73
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供