日期

8 个月前

大小

71.74 GB

数据集组织

论文 URL

2502.18443

许可证

Other

标签

OCR

olmOCR-mix-1025 是由 Allen Institute for AI 于 2025 年发布的一个大规模、高质量 PDF 文档 OCR 数据集，相关论文成果为「olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models」，旨在支持光学字符识别（OCR）模型、文档理解模型以及多模态大模型的训练、微调与评估。该数据集共包含约 270,250 页 PDF 文档内容，其中训练集 267,962 页、评估集 2,288 页，覆盖学术论文、档案文献、书籍扫描文本及历史手稿等多样文档类型。各子集均以英语为主，比例整体在 91%–99% 之间，并包含少量西班牙语、法语、德语、意大利语、拉丁语、印尼语等文献。

数据集分布

00_documents（通用文档）：共 232,790 页（训练 231,668 / 评估 1,122），语言分布为英语 94.46% 、西班牙语 0.58% 、法语 0.46% 、印尼语 0.45% 、德语 0.42% 。
01_books（书籍文献）：共 17,474 页（训练 16,575 / 评估 899），语言分布为英语 91.28% 、法语 0.54% 、拉丁语 0.31% 、德语 0.27% 、印地语 0.12% 。
02_loc_transcripts（国会记录 / 演讲转录文本）：共 9,989 页（训练 9,891 / 评估 98），语言分布为英语 98.21% 、西班牙语 0.59% 、法语 0.46% 、德语 0.45% 、意大利语 0.11% 。
03_national_archives（国家档案文献）：共 9,997 页（训练 9,828 / 评估 169），语言分布为英语 99.82% 、西班牙语 0.12% 、法语 0.02% 、瑞典语 0.01% 、德语 0.01% 。与先前版本 olmOCR-mix-0225 相比，olmOCR-mix-1025 在标注质量与文档覆盖上进一步提升。该版本使用 GPT-4.1 和改进的提示策略生成 OCR，使文本阅读顺序与原始版面保持更一致，并保留 born-digital 内容结构。同时，数据集中对数学公式格式进行了标准化处理，表格以 HTML 呈现，并补充了基础图像 Alt Text，还增加了书籍、档案与手写文献样本，使其更适用于文档场景下的鲁棒模型训练。

olmOCR-mix-1025.torrent

做种 1正在下载 0已完成 8总下载量 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

8 个月前

大小

71.74 GB

数据集组织

论文 URL

2502.18443

许可证

Other

标签

OCR

数据集分布

00_documents（通用文档）：共 232,790 页（训练 231,668 / 评估 1,122），语言分布为英语 94.46% 、西班牙语 0.58% 、法语 0.46% 、印尼语 0.45% 、德语 0.42% 。
01_books（书籍文献）：共 17,474 页（训练 16,575 / 评估 899），语言分布为英语 91.28% 、法语 0.54% 、拉丁语 0.31% 、德语 0.27% 、印地语 0.12% 。
02_loc_transcripts（国会记录 / 演讲转录文本）：共 9,989 页（训练 9,891 / 评估 98），语言分布为英语 98.21% 、西班牙语 0.59% 、法语 0.46% 、德语 0.45% 、意大利语 0.11% 。
03_national_archives（国家档案文献）：共 9,997 页（训练 9,828 / 评估 169），语言分布为英语 99.82% 、西班牙语 0.12% 、法语 0.02% 、瑞典语 0.01% 、德语 0.01% 。与先前版本 olmOCR-mix-0225 相比，olmOCR-mix-1025 在标注质量与文档覆盖上进一步提升。该版本使用 GPT-4.1 和改进的提示策略生成 OCR，使文本阅读顺序与原始版面保持更一致，并保留 born-digital 内容结构。同时，数据集中对数学公式格式进行了标准化处理，表格以 HTML 呈现，并补充了基础图像 Alt Text，还增加了书籍、档案与手写文献样本，使其更适用于文档场景下的鲁棒模型训练。

olmOCR-mix-1025.torrent

做种 1正在下载 0已完成 8总下载量 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

LightOnOCR-mix-0126 文本转录数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

8 个月前

大小

71.74 GB

数据集组织

论文 URL

2502.18443

许可证

Other

标签

OCR

数据集分布

00_documents（通用文档）：共 232,790 页（训练 231,668 / 评估 1,122），语言分布为英语 94.46% 、西班牙语 0.58% 、法语 0.46% 、印尼语 0.45% 、德语 0.42% 。
01_books（书籍文献）：共 17,474 页（训练 16,575 / 评估 899），语言分布为英语 91.28% 、法语 0.54% 、拉丁语 0.31% 、德语 0.27% 、印地语 0.12% 。
02_loc_transcripts（国会记录 / 演讲转录文本）：共 9,989 页（训练 9,891 / 评估 98），语言分布为英语 98.21% 、西班牙语 0.59% 、法语 0.46% 、德语 0.45% 、意大利语 0.11% 。
03_national_archives（国家档案文献）：共 9,997 页（训练 9,828 / 评估 169），语言分布为英语 99.82% 、西班牙语 0.12% 、法语 0.02% 、瑞典语 0.01% 、德语 0.01% 。与先前版本 olmOCR-mix-0225 相比，olmOCR-mix-1025 在标注质量与文档覆盖上进一步提升。该版本使用 GPT-4.1 和改进的提示策略生成 OCR，使文本阅读顺序与原始版面保持更一致，并保留 born-digital 内容结构。同时，数据集中对数学公式格式进行了标准化处理，表格以 HTML 呈现，并补充了基础图像 Alt Text，还增加了书籍、档案与手写文献样本，使其更适用于文档场景下的鲁棒模型训练。

olmOCR-mix-1025.torrent

做种 1正在下载 0已完成 8总下载量 101

olmOCR-mix-1025/
- README.md
  2.78 KB
- README.txt
  5.56 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

LightOnOCR-mix-0126 文本转录数据集

5 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

olmOCR-mix-1025 文档识别数据集

数据集分布

用 AI 构建 AI

HyperAI Newsletters

Command Palette

olmOCR-mix-1025 文档识别数据集

数据集分布

LightOnOCR-mix-0126 文本转录数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

olmOCR-mix-1025 文档识别数据集

数据集分布

LightOnOCR-mix-0126 文本转录数据集

用 AI 构建 AI

HyperAI Newsletters

LightOnOCR-mix-0126 文本转录数据集

LightOnOCR-mix-0126 文本转录数据集