RolmOCR 跨场景极速 OCR 开源识别新基准

一、教程简介
RolmOCR 是 Reducto AI 团队于 2025 年 4 月开发的开源 OCR 工具,基于 Qwen2.5-VL-7B 视觉语言模型。它能快速且低内存地从图片和 PDF 中提取文字,优于同类工具 olmOCR 。 RolmOCR 无需依赖 PDF 元数据,简化流程并支持多种文档类型,如手写笔记和学术论文。 Reducto 团队通过模型更新和训练数据优化,旨在提升文档数字化效率。
本教程使用 RolmOCR 作为演示,镜像使用 vllm 0.7.3-2204,算力资源采用 RTX 4090 。
二、功能列表
- 快速文字提取:从图片和 PDF 中提取文字,处理速度快,适合大量文档。
- 支持多种文档:能识别手写笔记、打印文件和复杂表格。
- 开源免费:在 Apache 2.0 许可下开放,代码可自由下载和调整。
- 低内存占用:相比 olmOCR 更省资源,运行时对电脑要求低。
- 无需元数据:直接处理原始文档,不用依赖 PDF 的额外信息。
- 增强倾斜文档识别:训练数据中 15% 被旋转,提升对非正角度文档的适应性。
- 基于最新模型:采用 Qwen2.5-VL-7B,提升识别准确度和效率。
三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面
若显示「Bad Gateway」,这表示模型正在初始化,请等待约 1-2 分钟后刷新页面。

2. 功能演示


引用信息
感谢 GitHub 用户 boyswu 对本教程的制作,本项目引用信息如下:
@misc{RolmOCR,
author = {Reducto AI},
title = {RolmOCR: A Faster, Lighter Open Source OCR Model},
year = {2025},
}
交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓
