Command Palette

Search for a command to run...

4 个月前

olmOCR:利用视觉语言模型解锁PDF中的数万亿个Token

{Luca Soldaini Kyle Lo Christopher Wilhelm Aman Rangapur Daniel Lin Regan Huff Jason Dunkelberger Jon Borchardt Jake Poznanski}

olmOCR:利用视觉语言模型解锁PDF中的数万亿个Token

摘要

PDF文档有可能为训练语言模型提供数万亿个新颖且高质量的文本标记(tokens)。然而,这些文档种类繁多,格式和视觉布局各异,这在尝试提取并准确地表示其底层内容以供语言模型使用时带来了挑战。我们提出了 olmOCR,这是一个开源的 Python 工具包,能够在保持结构化内容(如章节、表格、列表、公式等)的同时,将 PDF 文档转换为整洁、线性化的纯文本,并按照自然的阅读顺序进行排列。我们的工具包运行一个经过微调的 7B 视觉语言模型(Vision Language Model, VLM),该模型在来自超过 10 万份爬取的 PDF 文档中抽取的 26 万页样本上进行训练,这些文档具有多种特性,包括图形、手写文本以及低质量的扫描件。olmOCR 针对大规模批量处理进行了优化,能够灵活适配不同的硬件环境,并且仅需 190 美元即可转换一百万页 PDF 文档。我们发布了 olmOCR 的所有组件,包括 VLM 权重、数据、训练代码以及基于 vLLM 和 SGLang 等推理框架构建的推理代码。

代码仓库

allenai/olmocr
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供