Command Palette
Search for a command to run...
HunyuanOCR:腾讯混元端到端 OCR
一、教程简介

HunyuanOCR 项目是由腾讯混元团队于 2025 年 11 月发布,相关论文成果为「HunyuanOCR Technical Report」。
项目简介:HunyuanOCR 是一款革命性的 1B 参数端到端 OCR 模型。它基于混元原生的多模态架构,打破了传统 OCR 需要检测、识别、拼接的繁琐流程,实现了「单图输入、直接输出」的极致体验。该模型在多语言文档解析、 LaTeX 公式识别、复杂表格还原等任务上均取得了 SOTA(State-of-the-Art)效果。
本教程在 OpenBayes 平台上,以「单卡 RTX 5090」作为演示算力资源,配合 Transformers 原生推理,使用 Gradio 搭建了一个可视化网页界面,支持多种 OCR 任务的一键测试。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址进入 Web 界面

2. 在网页中上传图片并识别
若显示「Bad Gateway」,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。

四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
@misc{hunyuanvisionteam2025hunyuanocrtechnicalreport,
title={HunyuanOCR Technical Report},
author={Hunyuan Vision Team and Pengyuan Lyu and Xingyu Wan and Gengluo Li and Shangpin Peng and Weinong Wang and Liang Wu and Huawen Shen and Yu Zhou and Canhui Tang and Qi Yang and Qiming Peng and Bin Luo and Hower Yang and Xinsong Zhang and Jinnian Zhang and Houwen Peng and Hongming Yang and Senhao Xie and Longsha Zhou and Ge Pei and Binghong Wu and Kan Wu and Jieneng Yang and Bochao Wang and Kai Liu and Jianchen Zhu and Jie Jiang and Linus and Han Hu and Chengquan Zhang},
year={2025},
journal={arXiv preprint arXiv:2511.19575},
url={[https://arxiv.org/abs/2511.19575](https://arxiv.org/abs/2511.19575)},
}
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.