HyperAI

1. مقدمة البرنامج التعليمي

MonkeyOCR هو نموذج تحليل مستندات مفتوح المصدر، أطلقته جامعة هواتشونغ للعلوم والتكنولوجيا بالتعاون مع Kingsoft Office في 5 يونيو 2025. يدعم هذا النموذج التحويل الفعال لمحتوى المستندات غير المنظمة إلى معلومات منظمة. وبفضل تحليل التخطيط الدقيق، والتعرف على المحتوى، والفرز المنطقي، تحسّنت دقة وكفاءة تحليل المستندات بشكل ملحوظ. مقارنةً بالطرق التقليدية، يُظهر MonkeyOCR أداءً جيدًا في معالجة المستندات المعقدة (مثل المستندات التي تحتوي على صيغ وجداول)، بمتوسط تحسن في الأداء قدره 5.1%، و15.0% و8.6% في تحليل الصيغ والجداول على التوالي. كما يُظهر النموذج أداءً جيدًا في معالجة المستندات متعددة الصفحات، حيث يصل إلى 0.84 صفحة في الثانية، متجاوزًا بذلك الأدوات المماثلة الأخرى بكثير. يدعم MonkeyOCR مجموعة متنوعة من أنواع المستندات، بما في ذلك الأوراق الأكاديمية والكتب المدرسية والصحف، وغيرها، وهو مناسب لعدة لغات، مما يوفر دعمًا قويًا لرقمنة المستندات ومعالجتها تلقائيًا. نتائج الأوراق ذات الصلة هي:MonkeyOCR: تحليل المستندات باستخدام نموذج الثلاثية "البنية-التعرف-العلاقة"".

المميزات الرئيسية:

تحليل المستندات وهيكلتها: تحويل المحتوى غير المنظم (بما في ذلك النصوص والجداول والصيغ والصور وما إلى ذلك) في مستندات بتنسيقات مختلفة (مثل PDF والصور وما إلى ذلك) إلى معلومات منظمة وقابلة للقراءة آليًا.
دعم متعدد اللغات: يدعم لغات متعددة، بما في ذلك الصينية والإنجليزية.
التعامل بكفاءة مع المستندات المعقدة: يعمل بشكل جيد عند معالجة المستندات المعقدة (مثل تلك التي تحتوي على صيغ وجداول وتخطيطات متعددة الأعمدة وما إلى ذلك).
معالجة سريعة للمستندات متعددة الصفحات: معالجة المستندات متعددة الصفحات بكفاءة بسرعة معالجة تبلغ 0.84 صفحة في الثانية، وهي أفضل بكثير من الأدوات الأخرى (مثل MinerU 0.65 صفحة في الثانية وQwen2.5-VL-7B 0.12 صفحة في الثانية).
النشر والتوسع المرن: يدعم النشر الفعال على وحدة معالجة رسومية واحدة من نوع NVIDIA 3090 لتلبية احتياجات مختلف المقاييس.

المبدأ الفني:

نموذج ثلاثي البنية-التعرف-العلاقة (SRR): كاشف تخطيط مستند قائم على YOLO، يحدد موقع وفئة العناصر الرئيسية في المستند (مثل كتل النصوص، والجداول، والصيغ، والصور، إلخ). يتم التعرف على المحتوى على كل منطقة مُكتشَفة، ويتم التعرف الشامل باستخدام نموذج متعدد الأشكال كبير (LMM) لضمان دقة عالية. بناءً على آلية تنبؤ بترتيب القراءة على مستوى الكتلة، تُحدَّد العلاقة المنطقية بين العناصر المُكتشَفة لإعادة بناء البنية الدلالية للمستند.
مجموعة بيانات MonkeyDoc: تُعد MonkeyDoc أشمل مجموعة بيانات لتحليل المستندات حتى الآن، حيث تحتوي على 3.9 مليون نسخة، تغطي أكثر من عشرة أنواع من المستندات باللغتين الصينية والإنجليزية. بُنيت مجموعة البيانات هذه بناءً على خط أنابيب متعدد المراحل، يجمع بين الشرح اليدوي الدقيق، والتوليف البرمجي، والشرح التلقائي القائم على النموذج. تُستخدم لتدريب نماذج MonkeyOCR وتقييمها، مما يضمن قدرات تعميم قوية في سيناريوهات المستندات المتنوعة والمعقدة.
تحسين النموذج ونشره: يُستخدم مُحسِّن AdamW وجدولة معدل تعلم جيب التمام مع مجموعات بيانات واسعة النطاق للتدريب، وذلك لضمان التوازن بين دقة النموذج وكفاءته. بالاعتماد على أداة LMDeplov، يمكن لـ MonkeyOCR العمل بكفاءة على وحدة معالجة رسومات NVIDIA 3090 واحدة، مما يدعم الاستدلال السريع والنشر واسع النطاق.

موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX 4090 واحدة.

2. عرض التأثير

مثال على مستند الصيغة

مثال على مستند الجدول

مثال على الصحيفة

مثال على التقرير المالي

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{li2025monkeyocrdocumentparsingstructurerecognitionrelation,
      title={MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm}, 
      author={Zhang Li and Yuliang Liu and Qiang Liu and Zhiyin Ma and Ziyang Zhang and Shuo Zhang and Zidun Guo and Jiarui Zhang and Xinyu Wang and Xiang Bai},
      year={2025},
      eprint={2506.05218},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2506.05218}, 
}

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

1. مقدمة البرنامج التعليمي