Command Palette
Search for a command to run...

摘要
本文提出 HunyuanOCR,一个面向OCR任务的商用级、开源且轻量级(10亿参数)视觉-语言模型(VLM)。该模型架构由原生视觉Transformer(ViT)与轻量级大语言模型(LLM)通过MLP适配器连接而成。HunyuanOCR展现出卓越的性能,超越了现有商业API、传统处理流程以及参数量更大的模型(如Qwen3-VL-4B)。具体而言,其在感知类任务(如文本定位、文本解析)方面优于当前公开的主流解决方案,并在语义类任务(如信息抽取、文本图像翻译)中表现突出,成功夺得ICDAR 2025 DIMT挑战赛(轻量模型赛道)第一名。此外,在OCRBench基准测试中,HunyuanOCR在参数量少于30亿的VLM中达到当前最优(SOTA)水平。HunyuanOCR在三个关键方面取得突破性进展:1)统一通用性与高效性:在轻量级框架内全面支持核心能力,包括文本定位、文本解析、信息抽取、视觉问答(VQA)及文本图像翻译。该设计有效克服了传统“OCR专用模型”功能局限性,以及“通用VLM”效率低下的问题。2)端到端架构的精简化:采用纯端到端范式,完全消除对预处理模块(如版面分析)的依赖,从根本上解决了传统流水线中常见的误差传播问题,显著简化了系统部署流程。3)数据驱动与强化学习策略:我们验证了高质量数据在OCR任务中的关键作用,并首次在业界实证表明,强化学习(Reinforcement Learning, RL)策略能为OCR任务带来显著的性能提升。HunyuanOCR已正式在HuggingFace平台开源。同时,我们提供基于vLLM的高性能部署方案,使其实用化效率处于行业领先水平。我们期望该模型能够推动前沿研究的发展,并为工业应用提供坚实的技术基础。