Command Palette

Search for a command to run...

Extract-0 文档信息提取数据集

日期

19 天前

大小

55.5 MB

机构

Inteli

论文链接

2509.22906

许可协议

Apache 2.0

Extract-0 由 Inteli 于 2025 年发布的一个专为文档信息抽取任务设计的高质量训练与评测数据集,相关论文成果为「Extract-0: A Specialized Language Model for Document Information Extraction」,旨在支持小规模参数模型在复杂抽取任务中的性能优化研究。

该数据集共包含 280,128 条文档抽取示例,源自 34,761 个文档块(text chunk),每个样本平均长度约为 532–1900 个 token,覆盖多种数据结构类型(如对象、数组、字符串、日期与数值)。数据来自 arXiv 学术论文、 PubMed Central 医学文献数据库、维基百科条目以及 FDA(美国食品药品监督管理局)数据库的文本数据。每个样本均由原始文档片段与其对应的基于模式(schema-based)抽取任务 及结构化输出组成,从而在多领域、多格式文档中提供统一的抽取训练标准。

Extract-0.torrent
做种 1正在下载 0已完成 10总下载次数 25
  • Extract-0/
    • README.md
      1.67 KB
    • README.txt
      3.34 KB
      • data/
        • Extract-0.zip
          55.5 MB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Extract-0 文档信息提取数据集 | 数据集 | HyperAI超神经