Command Palette
Search for a command to run...
Haoran Wei Yaofeng Sun Yukun Li

الملخص
نقدّم نموذج DeepSeek-OCR كدراسة أولية لجدوى ضغط السياقات الطويلة من خلال الخريطة البصرية ثنائية الأبعاد. يتكوّن نموذج DeepSeek-OCR من مكوّنين رئيسيين: DeepEncoder كمُشفّر، وDeepSeek3B-MoE-A570M كمُفكّك. وتحديدًا، يعمل DeepEncoder كمحرك أساسي مصمم للحفاظ على مستويات منخفضة من النشاطات عند التعامل مع إدخالات عالية الدقة، مع تحقيق نسب ضغط عالية لضمان عدد مثالي وقابل للإدارة من رموز البصريات (vision tokens). تُظهر النتائج التجريبية أن النموذج يمكنه تحقيق دقة في التفكيك (الاستخراج البصري للنص – OCR) تبلغ 97% عندما يكون عدد رموز النص أقل من 10 أضعاف عدد رموز البصريات (أي نسبة ضغط أقل من 10×). وحتى عند نسبة ضغط تصل إلى 20×، تبقى دقة الاستخراج البصري للنص عند حوالي 60%. وهذا يُظهر إمكانات واعدة في مجالات بحثية مثل ضغط السياقات الطويلة في السجلات التاريخية، وآليات نسيان الذاكرة في النماذج اللغوية الكبيرة (LLMs). إلى جانب ذلك، يُظهر DeepSeek-OCR أيضًا قيمة عملية عالية. فقد تفوّق على GOT-OCR2.0 (الذي يستخدم 256 رمزًا بصريًا لكل صفحة) على معيار OmniDocBench، باستخدام فقط 100 رمزًا بصريًا، كما تفوّق على MinerU2.0 (الذي يستخدم أكثر من 6000 رمزًا لكل صفحة في المتوسط) مع استخدام أقل من 800 رمزًا بصريًا. وفي البيئة الإنتاجية، يمكن لنموذج DeepSeek-OCR إنتاج بيانات تدريب للنماذج اللغوية الكبيرة (LLMs) أو النماذج اللغوية والبصرية (VLMs) بحجم يتجاوز 200 ألف صفحة يوميًا (على جهاز A100-40G واحد). يُمكن الوصول إلى الشفرة المصدرية وأوزان النموذج بشكل عام عبر الرابط: http://github.com/deepseek-ai/DeepSeek-OCR.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.