HyperAIHyperAI

Command Palette

Search for a command to run...

باي دو تطلق Unlimited-OCR لاستخراج النصوص طويلة المدى

أعلنت شركة باي두 عن إطلاق نموذج التحويل الضوئي للنصوص مفتوح المصدر Unlimited-OCR، والذي يمهد لعصر جديد من معالجة المستندات عبر تقنية التضمين الطويل في خطوة واحدة. يهدف هذا الإصدار إلى تبسيط عمليات استخراج النصوص من الصور الفردية والملفات متعددة الصفحات دون الحاجة إلى تقسيمها أو معالجتها بشكل متسلسل، مما يعالج تحديات السياقات النصية الطويلة بدقة عالية. يعتمد النموذج على بنية تسمح بالتعامل مع سياقات تصل إلى 32768 رمزاً، مما يقلل الهفوات الشائعة ويحافظ على التسلسل الهيكلي للصفحات المعقدة. يتوافق الإصدار مع بيئتي استنتاج رئيسيتين هما مكتبة Hugging Face Transformers وإطار SGLang، مع بيئة تشغيل مثبتة على معالجات رسومات NVIDIA باستخدام Python 3.12.3 وCUDA 12.9. يوفر النظام وضعين استعلاميين قابلين للتكوين: وضع Gundam المخصص للصور الفردية والفعال من حيث السرعة والموارد، ووضع Base المصمم للمستندات المتعددة. كما يتضمن آليات تحكم متقدمة في المعالجة اللغوية لمنع تكرار النماذج النحوية، بالإضافة إلى دمج تلقائي لتحويل الملفات إلى صور عالية الدقة قبل المعالجة. يعمل Unlimited-OCR على تسريع سير العمل الرقمي للمؤسسات من خلال دمج خطوات المسح والتسجيل والتنظيم في عملية موحدة. تم نشر الكود المصدري على منصة GitHub مع توثيق تقني مفصل، مع استناد المطورين إلى رؤى سابقة من نماذج Deepseek-OCR وPaddleOCR. يمتد تأثير هذا الإصدار ليشمل القطاعات المالية والقانونية والإدارية التي تعتمد على الأرشيف الوثائقي، مؤكداً انتقال صناعة معالجة المستندات الرقمية نحو عصر التضمين الشامل عالي الكفاءة.

الروابط ذات الصلة