一、教程简介

OCRFlux-3B 是由 ChatDOC 团队于 2025 年 6 月 17 日发布的基于多模态大型语言模型的工具包，用于将 PDF 和图像转换为干净、可读、纯文本的 Markdown 文本。该工具不仅提供了页面级别的文本转换功能，还支持跨页面的表格和段落的合并，为处理复杂文档结构提供了强大的支持。

本教程采用资源为单卡 RTX 4090 。项目提供了 PDF Document 、 Image Document 和 Multiple Files 三种演示示例。

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

PDF Document

参数说明

Advanced Settings：

Target Image Dimension：目标图像尺寸，用于控制生成图像的尺寸。
Max Page Retries：最大重试次数，用于处理 PDF 页面解析错误。
Skip Cross-Page Merge：跳过跨页合并，用于处理文档中跨页的内容。

Image Document

Multiple Files

HyperAI

运行此教程在 Discord 上讨论

日期

5 个月前

标签

OCR

许可证

Apache 2.0

GitHub

chatdoc-com/OCRFlux

一、教程简介

本教程采用资源为单卡 RTX 4090 。项目提供了 PDF Document 、 Image Document 和 Multiple Files 三种演示示例。

二、项目示例

PDF Document

Image Document

Multiple Files

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

若显示「Bad Gateway」，这表示模型正在初始化，由于模型较大，请等待约 2-3 分钟后刷新页面。

PDF Document

参数说明

Advanced Settings：
- Target Image Dimension：目标图像尺寸，用于控制生成图像的尺寸。
- Max Page Retries：最大重试次数，用于处理 PDF 页面解析错误。
- Skip Cross-Page Merge：跳过跨页合并，用于处理文档中跨页的内容。

Image Document

Multiple Files

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

Command Palette

OCRFlux-3B：智能文本识别工具包

一、教程简介

二、项目示例

PDF Document

Image Document

Multiple Files

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

PDF Document

Image Document

Multiple Files

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OCRFlux-3B：智能文本识别工具包

一、教程简介

二、项目示例

PDF Document

Image Document

Multiple Files

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

PDF Document

Image Document

Multiple Files

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

GLM-ASR-Nano 智谱语音识别

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

HunyuanWorld-1.0：3D 世界生成模型

n8n-workflows：工作流合集

腾讯混元 HunyuanVideo-Foley

vLLM + Open WebUI 部署 Apriel-1.5-15b-Thinker

Long-VITA：百万 Token 多模态理解 Demo

Fara-7B：高效的网页智能体模型

DiagGym 诊断智能体

用 AI 构建 AI

HyperAI Newsletters

Command Palette

OCRFlux-3B：智能文本识别工具包

一、教程简介

二、项目示例

PDF Document

Image Document

Multiple Files

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 使用步骤

PDF Document

Image Document

Multiple Files

相关笔记本

MarkItDown 微软开源的文档转换工具

Chandra：高精度文档 OCR

Depth-Anything-3：从任何视角恢复视觉空间

MOSS：文本到口语对话生成

HunyuanOCR：腾讯混元端到端 OCR

MAGE：单克隆抗体基因生成器

SoulX-Podcast 面向多方言的播客级长文本语音生成

LongCat-Image：双语文本驱动图像生成系统

一键部署 Qwen-Image-Lightning

GLM-ASR-Nano 智谱语音识别

Kiss3DGen：基于图像扩散模型的 3D 资产生成框架

kyutai-tts-1.6 b-en_fr 音频生成

JarvisArt-Preview 智能照片修饰代理

HunyuanWorld-1.0：3D 世界生成模型

n8n-workflows：工作流合集