
الملخص
يقدم هذا البحث نموذج HunyuanOCR، وهو نموذج بصري-لغوي (VLM) مفتوح المصدر وتجاري الجودة وخفيف الوزن (بمقدار 1B معلمة)، مُخصص لمهام التعرف البصري على النصوص (OCR). يتكوّن معمارية النموذج من مُحول بصري أصلي (ViT) ونموذج لغوي خفيف الوزن (LLM) متصلان عبر مُتَوَسِّط (MLP adapter). يُظهر HunyuanOCR أداءً متفوّقًا، حيث يتفوّق على واجهات برمجة التطبيقات التجارية (APIs)، والأنماط التقليدية، والأنماط الأكبر حجمًا (مثل Qwen3-VL-4B). وبشكل خاص، يتفوّق على الحلول العامة المتاحة حاليًا في المهام الاحتفاظية (Text Spotting، Parsing)، ويُبزّ في المهام المعنى (IE، الترجمة النصية-الصورة)، مُسجّلًا المركز الأول في مسابقة ICDAR 2025 DIMT (مُسار النماذج الصغيرة). علاوةً على ذلك، يحقّق النموذج نتائج مُتقدّمة (SOTA) على معيار OCRBench بين نماذج VLM ذات أقل من 3B معلمة. يُسجّل HunyuanOCR تقدّمًا كبيرًا في ثلاث جوانب رئيسية:1) دمج المرونة والكفاءة: نُطبّق دعمًا شاملاً للقدرات الأساسية، بما في ذلك التعرف على النصوص (spotting)، وتحليل البنية (parsing)، واستخراج المعلومات (IE)، وسؤال-إجابة بصري (VQA)، والترجمة، ضمن إطار خفيف الوزن. ويُعالج هذا النموذج القيود المفروضة على النماذج المتخصصة في OCR، وكذلك كفاءة النماذج العامة (General VLMs).2) هيكلية نهائية مُبسّطة ومتسلسلة بالكامل (End-to-End): باتباع نموذج "نهائي-إلى-نهائي" بحت، يتم التخلص من الاعتماد على وحدات ما قبل المعالجة (مثل تحليل التخطيط - layout analysis). وهذا يُعالج جذريًا مشكلة انتشار الأخطاء الشائعة في الأنظمة التقليدية، ويُبسّط عملية نشر النظام.3) استراتيجيات تعتمد على البيانات والتعلم بالتعزيز (RL): نؤكد الدور الحاسم للبيانات عالية الجودة، ونُظهر لأول مرة في الصناعة أن استراتيجيات التعلم بالتعزيز (Reinforcement Learning) تُحقّق تحسينات كبيرة في الأداء في مهام OCR.تم الإفصاح رسميًا عن نموذج HunyuanOCR مفتوح المصدر على منصة HuggingFace. كما نقدّم حلًّا مُعدًّا للتشغيل عالي الأداء باستخدام vLLM، مما يضع كفاءة النموذج في الإنتاج ضمن الصفوف المتقدمة. نأمل أن يُسهم هذا النموذج في دفع حدود البحث العلمي، ويُوفّر أساسًا متينًا لتطبيقات صناعية واقعية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.