Command Palette
Search for a command to run...
{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

摘要
PDF文档有可能为训练语言模型提供数万亿个新颖且高质量的文本标记(tokens)。然而,这些文档种类繁多,格式和视觉布局各异,这在尝试提取并准确地表示其底层内容以供语言模型使用时带来了挑战。我们提出了 olmOCR,这是一个开源的 Python 工具包,能够在保持结构化内容(如章节、表格、列表、公式等)的同时,将 PDF 文档转换为整洁、线性化的纯文本,并按照自然的阅读顺序进行排列。我们的工具包运行一个经过微调的 7B 视觉语言模型(Vision Language Model, VLM),该模型在来自超过 10 万份爬取的 PDF 文档中抽取的 26 万页样本上进行训练,这些文档具有多种特性,包括图形、手写文本以及低质量的扫描件。olmOCR 针对大规模批量处理进行了优化,能够灵活适配不同的硬件环境,并且仅需 190 美元即可转换一百万页 PDF 文档。我们发布了 olmOCR 的所有组件,包括 VLM 权重、数据、训练代码以及基于 vLLM 和 SGLang 等推理框架构建的推理代码。
代码仓库
allenai/olmocr
官方
pytorch
GitHub 中提及