HyperAIHyperAI

dots.ocr: نموذج تحليل مستندات متعدد اللغات

1. مقدمة البرنامج التعليمي

dots.ocr هو نموذج تحليل تخطيطات مستندات متعدد اللغات، أصدره مختبر شياوهونغشو في أغسطس 2025. يعتمد النموذج على نموذج لغة بصرية (VLM) ذي 1.7 مليار معلمة، ويدمج بين كشف التخطيط والتعرف على المحتوى، محافظًا على ترتيب قراءة جيد. على الرغم من صغر حجمه، يحقق النموذج أداءً متطورًا، محققًا نتائج ممتازة في معايير مثل OmniDocBench. ينافس أداءه في التعرف على الصيغ أداء النماذج الأكبر حجمًا مثل Doubao-1.5 وGemini2.5-Pro، مما يُظهر مزايا كبيرة في تحليل لغات الأقليات. يتميز dots.ocr ببنية بسيطة وفعالة، لا تتطلب سوى تغيير في موجه الإدخال لتبديل المهام. سرعته العالية في الاستدلال تجعله مناسبًا لمجموعة متنوعة من سيناريوهات تحليل المستندات.

يستخدم هذا البرنامج التعليمي الموارد لبطاقة RTX 4090 واحدة.

2. أمثلة المشاريع

مثال على مستند الصيغة

مثال على مستند الجدول

مثال على التوثيق متعدد اللغات

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

وصف المعلمة

  • حدد المطالبة:
    • layout_all_ar: يتعرف على كل النص الموجود في الصورة ويحافظ على بنية التخطيط الأصلية.
    • layout_only_ar: التعرف على النص الإنجليزي فقط في الصور وتجاهل اللغات الأخرى.
    • التعرف الضوئي على الحروف (OCR): التعرف على النص في الصور دون الحفاظ على البنية.
  • الإعدادات المتقدمة:
    • تفعيل fitz_preprocess للصور: هل سيتم تفعيل fitz_preprocess للصور؟ يُنصح به إذا كانت دقة الصورة (DPI) منخفضة.
    • الحد الأدنى من البكسل: الحد الأدنى لعدد البكسل في الصورة، ويستخدم لتصفية الصور التي تكون صغيرة جدًا.
    • الحد الأقصى للبكسل: الحد الأقصى لعدد البكسل في الصورة، ويستخدم لتصفية الصور ذات الحجم الكبير جدًا.

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓