HyperAIHyperAI

ملخص لستة نماذج OCR رئيسية، مفتوحة المصدر من قبل Google وIBM وTencent وXiaohongshu وجامعة Tsinghua، مع هياكل خفيفة الوزن تعمل على تعزيز دقة التعرف والكفاءة.

特色图像

من بين العديد من تطبيقات الذكاء الاصطناعي، يعد التعرف الضوئي على الحروف (OCR) بلا شك أحد أكثر التقنيات نضجًا وعملية.الهدف الأساسي من التعرف الضوئي على الحروف هو تحويل الأحرف في الصور والمستندات الممسوحة ضوئيًا ومشاهد الشوارع والفواتير وحتى النصوص المكتوبة بخط اليد تلقائيًا إلى نص رقمي قابل للتحرير والبحث.اعتمدت تقنيات التعرف الضوئي على الحروف (OCR) في بداياتها بشكل كبير على القواعد والقوالب، وكانت وظائفها محدودة، وغالبًا ما كانت تقتصر على التعرف على الأحرف المطبوعة. مع ذلك، ومع ظهور تقنيات التعلم العميق، وخاصةً الشبكات العصبية التلافيفية (CNNs) وأساليب نمذجة التسلسل، حققت دقة التعرف على الحروف ونطاق تطبيقها قفزة نوعية.

اليوم، يتم استخدام التعرف الضوئي على الحروف على نطاق واسع في سيناريوهات مختلفة مثل المعالجة الآلية للفواتير المالية، ومراجعة وثائق الهوية، والتعرف على لوحات الترخيص، ورقمنة الكتب الإلكترونية، والترجمة الذكية، وإدخال الوثائق الطبية.كما أنتجت الأبحاث والصناعة أيضًا سلسلة من النماذج والأطر التمثيلية.على سبيل المثال، أرست شبكة CRNN (الشبكة العصبية المتكررة التلافيفية) الأساس للنموذج الكلاسيكي للتعرف على النصوص من البداية إلى النهاية، وعززت هياكل مثل TPS-ResNet-BiLSTM-Attention تطوير التعرف على النصوص في المشاهد المعقدة. بدءًا من نموذج التكنولوجيا الثوري InkSight الذي أطلقته جوجل، وصولًا إلى النموذجين خفيفي الوزن اللذين أُطلقا مؤخرًا POINTS-Reader وGranite-docling،لقد أظهرت تقنية التعرف الضوئي على الحروف (OCR) إمكانات كبيرة في مهام التعرف الخفيفة، متعددة اللغات، ومتعددة الوسائط.

حاليًا، يُطلق قسم "الدروس التعليمية" على الموقع الرسمي لشركة HyperAI العديد من الدروس التعليمية مفتوحة المصدر لنماذج التعرف الضوئي على الحروف (OCR). إذا كنت ترغب في تجربة الإمكانات الهائلة لتقنية التعرف الضوئي على الحروف (OCR) لاستخراج معلومات الصور والنصوص بكفاءة، والتعرف على المشاهد، والمطابقة متعددة اللغات والتنسيقات، يُرجى زيارة قسم دروس Hyper.ai التعليمية لاستكشاف البرنامج التعليمي بنقرة واحدة!

1. نقاط القارئ:نموذج خفيف الوزن بدون تقطير من البداية إلى النهاية

* التشغيل عبر الإنترنت:https://go.hyper.ai/amhh4

هذا النموذج، الذي أطلقته تينسنت وجامعة شنغهاي جياو تونغ وجامعة تسينغهوا، هو نموذج بصري لغوي خفيف الوزن (VLM) مصمم خصيصًا لتحويل الصور إلى نصوص في المستندات. باستخدام إطار عمل متطور ذاتيًا على مرحلتين، يحقق هذا النموذج دقة عالية في التعرف الشامل على المستندات الصينية والإنجليزية المعقدة (بما في ذلك الجداول والصيغ والتخطيطات متعددة الأعمدة) مع الحفاظ على هيكل بسيط.

2. Granite-docling-258M: نموذج معالجة مستندات متعدد الوسائط وخفيف الوزن

* التشغيل عبر الإنترنت:https://go.hyper.ai/BBXlC

* البرنامج التعليمي خطوة بخطوة:إعادة تعريف الجيل التالي من التعرف الضوئي على الحروف: يتيح برنامج Granite-docling-258M مفتوح المصدر الجديد من IBM فهمًا موحدًا من البداية إلى النهاية لـ "الهيكل + المحتوى".

أطلقت شركة IBM هذا النموذج اللغوي البصري خفيف الوزن في سبتمبر 2025، وهو مصمم لتحويل المستندات بكفاءة. يحتوي النموذج على 258 مليون معلمة فقط، ويوفر أداءً استثنائيًا وفعالية من حيث التكلفة، ويدعم لغات متعددة (بما في ذلك العربية والصينية واليابانية). يحول النموذج المستندات إلى صيغة قابلة للقراءة آليًا مع الحفاظ على التنسيقات والجداول والصيغ وعناصر أخرى. يصف تنسيق DocTags المستخدم بنية المستند بدقة، مما يمنع فقدان المعلومات.

3. dots.ocr: نموذج تحليل مستندات متعدد اللغات

* التشغيل عبر الإنترنت:https://go.hyper.ai/o0Bm0

* البرنامج التعليمي خطوة بخطوة:من خلال اختراق الاعتماد على المستندات المنظمة، يحقق dots.ocr أداء OCR متطورًا للغاية في مئات اللغات استنادًا إلى 1.7 مليار معلمة.

هذا النموذج، الذي أصدره مختبر شياوهونغشو في أغسطس 2025، هو نموذج تحليل تخطيط مستندات متعدد اللغات. يعتمد هذا النموذج على وحدة VLM ذات 1.7 مليار معلمة، ويدمج بين اكتشاف التخطيط والتعرف على المحتوى، مع الحفاظ على ترتيب قراءة جيد. على الرغم من صغر حجمه، إلا أنه يحقق أداءً متطورًا، محققًا نتائج ممتازة في معايير مثل OmniDocBench. ينافس نظام التعرف على الصيغ الخاص به Doubao-1.5 وGemini2.5-Pro، ويُظهر مزايا كبيرة في تحليل لغات الأقليات. يتميز النموذج ببنية بسيطة وفعالة، حيث لا يتطلب تبديل المهام سوى تغيير كلمة الموجه. وهذا يُؤدي إلى سرعة استدلال عالية، مما يجعله مناسبًا لمجموعة متنوعة من سيناريوهات تحليل المستندات.

4. MonkeyOCR: تحليل المستندات استنادًا إلى العلاقة بين البنية والتعرف على العلاقة

* التشغيل عبر الإنترنت:https://go.hyper.ai/2SDMC

* البرنامج التعليمي خطوة بخطوة:مع 2.6 ألف نجمة، يتفوق MonkeyOCR-3B على نموذج 72B في مهمة تحليل المستندات الإنجليزية ويصل إلى أداء SOTA

هذا النموذج لتحليل المستندات، والذي تم تطويره بشكل مشترك من قِبل جامعة هواتشونغ للعلوم والتكنولوجيا وKingsoft Office، مفتوح المصدر، يُحوّل المحتوى غير المنظم بكفاءة إلى معلومات منظمة. بالاعتماد على تحليل دقيق للتخطيط، والتعرف على المحتوى، والترتيب المنطقي، يُحسّن هذا النموذج دقة وكفاءة التحليل بشكل ملحوظ. يتحسن الأداء بمعدل 5.11 TP3T للمستندات المعقدة، و15.01 TP3T لتحليل الصيغ، و8.61 TP3T لتحليل الجداول. تصل سرعة معالجة الصفحات المتعددة إلى 0.84 صفحة في الثانية، متجاوزةً بذلك الأدوات المماثلة بكثير. يدعم هذا النموذج مجموعة واسعة من أنواع ولغات المستندات، وهو مناسب للاستخدام في مجالات مثل الرسائل الجامعية والكتب المدرسية والصحف، موفرًا دعمًا قويًا لرقمنة المستندات وأتمتتها.

5. GOT-OCR-2.0: أول نموذج OCR شامل في العالم

* التشغيل عبر الإنترنت:https://go.hyper.ai/NGNZi

طُوِّر هذا النموذج الموحد الشامل، الذي يعتمد على نظرية التعرف الضوئي على الحروف (OCR) العالمية، بالتعاون بين ستيب فن وميغفي تكنولوجي وجامعة الأكاديمية الصينية للعلوم وجامعة تسينغهوا، باستخدام بنية متكاملة لتحسين دقة وكفاءة التعرف الضوئي على الحروف بشكل ملحوظ. يتميز النموذج بالمرونة والتكيف، حيث يدعم التعرف على نصوص المشاهد ومعالجة المستندات متعددة الصفحات بكفاءة، مما يجعله مناسبًا لمجموعة متنوعة من سيناريوهات التطبيقات المعقدة.

6. عرض توضيحي لبرنامج InkSight: رقمنة النصوص المكتوبة بخط اليد

* التشغيل عبر الإنترنت:https://go.hyper.ai/LofxZ

* البرنامج التعليمي خطوة بخطوة:ما وراء التعرف الضوئي على الحروف التقليدي! نشر بنقرة واحدة لأحدث إنجازات Google InkSight: التعرف الدقيق على النص المكتوب بخط اليد، دون الضغط على اللغتين الصينية والإنجليزية

هذه التقنية الثورية للذكاء الاصطناعي، التي أطلقتها جوجل للأبحاث عام ٢٠٢٤، تُحاكي عملية القراءة والتعلم البشرية من خلال إعادة كتابة النصوص المكتوبة بخط اليد وتعلمها باستمرار، مما يُعزز فهمنا لمظهر النص ومعناه. يستطيع البشر قراءة تتبعات النصوص المُولّدة بواسطة InkSight بدقة تصل إلى ٨٧١ TP3T. ويُظهر InkSight دقة تمييز أعلى عند التعامل مع النصوص المكتوبة بخط اليد على خلفيات معقدة، أو في ظروف ضبابية، أو في ظروف الإضاءة الخافتة.