7 个月前

自然语言处理

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

摘要

PDF文档有可能为训练语言模型提供数万亿个新颖且高质量的文本标记（tokens）。然而，这些文档种类繁多，格式和视觉布局各异，这在尝试提取并准确地表示其底层内容以供语言模型使用时带来了挑战。我们提出了 olmOCR，这是一个开源的 Python 工具包，能够在保持结构化内容（如章节、表格、列表、公式等）的同时，将 PDF 文档转换为整洁、线性化的纯文本，并按照自然的阅读顺序进行排列。我们的工具包运行一个经过微调的 7B 视觉语言模型（Vision Language Model, VLM），该模型在来自超过 10 万份爬取的 PDF 文档中抽取的 26 万页样本上进行训练，这些文档具有多种特性，包括图形、手写文本以及低质量的扫描件。olmOCR 针对大规模批量处理进行了优化，能够灵活适配不同的硬件环境，并且仅需 190 美元即可转换一百万页 PDF 文档。我们发布了 olmOCR 的所有组件，包括 VLM 权重、数据、训练代码以及基于 vLLM 和 SGLang 等推理框架构建的推理代码。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

自然语言处理

Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski

摘要

PDF文档有可能为训练语言模型提供数万亿个新颖且高质量的文本标记（tokens）。然而，这些文档种类繁多，格式和视觉布局各异，这在尝试提取并准确地表示其底层内容以供语言模型使用时带来了挑战。我们提出了 olmOCR，这是一个开源的 Python 工具包，能够在保持结构化内容（如章节、表格、列表、公式等）的同时，将 PDF 文档转换为整洁、线性化的纯文本，并按照自然的阅读顺序进行排列。我们的工具包运行一个经过微调的 7B 视觉语言模型（Vision Language Model, VLM），该模型在来自超过 10 万份爬取的 PDF 文档中抽取的 26 万页样本上进行训练，这些文档具有多种特性，包括图形、手写文本以及低质量的扫描件。olmOCR 针对大规模批量处理进行了优化，能够灵活适配不同的硬件环境，并且仅需 190 美元即可转换一百万页 PDF 文档。我们发布了 olmOCR 的所有组件，包括 VLM 权重、数据、训练代码以及基于 vLLM 和 SGLang 等推理框架构建的推理代码。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供