HyperAIHyperAI

Command Palette

Search for a command to run...

برنامج تعليمي عبر الإنترنت | تحسينات تحليل الصيغ/الجداول في DeepSeek-OCR 2: حقق قفزة في الأداء تقارب 4% بتكلفة رمزية مرئية منخفضة

Featured Image

في تطوير نماذج اللغة المرئية (VLMs)، واجهت تقنية التعرف الضوئي على الأحرف (OCR) للمستندات تحديات جوهرية، مثل تحليل التخطيطات المعقدة ومواءمة المنطق الدلالي. تستخدم النماذج التقليدية في الغالب ترتيب مسح نقطي ثابت من أعلى اليسار إلى أسفل اليمين لمعالجة الرموز المرئية. تتعارض هذه العملية الجامدة مع نمط المسح القائم على الدلالة الذي يتبعه النظام البصري البشري، خاصةً عند معالجة المستندات التي تحتوي على صيغ وجداول معقدة، مما يؤدي بسهولة إلى أخطاء في التحليل نتيجة إهمال العلاقات الدلالية. لذا، أصبح تمكين النماذج من "فهم" المنطق المرئي كما يفهمه البشر إنجازًا رئيسيًا في تحسين قدرات فهم المستندات.

أصدرت شركة DeepSeek-AI مؤخراً برنامج DeepSeek-OCR 2، الذي يقدم أحدث الإجابات.جوهرها يكمن في اعتماد بنية DeepEncoder V2 الجديدة كلياً:يتخلى هذا النموذج عن مُشفِّر CLIP البصري التقليدي ويُقدِّم نموذجًا للتشفير البصري على غرار LLM. ومن خلال دمج الانتباه ثنائي الاتجاه والانتباه السببي، يُحقق إعادة ترتيب الرموز البصرية بناءً على الدلالات، وبالتالي يُنشئ مسارًا جديدًا لـ "الاستدلال السببي أحادي البعد على مرحلتين" لفهم الصور ثنائية الأبعاد.

تتجلى الابتكارات الرئيسية لبرنامج DeepEncoder V2 في أربعة جوانب:

* استبدال CLIP بـ Qwen2-0.5B compact LLM لتمكين قدرات الاستدلال السببي للترميز المرئي على نطاق ما يقرب من 500 مليون معلمة؛

* تقديم "استعلام التدفق السببي" بنفس طول عدد الرموز المرئية، والذي يستخدم قناع انتباه مخصص للحفاظ على وعي الرموز المرئية بشكل عام مع السماح لرموز الاستعلام بإعادة تنظيم الترتيب المرئي دلاليًا؛

* يدعم استراتيجيات تقليم متعددة لـ 256-1120 رمزًا مرئيًا، بما يتماشى مع ميزانية الرموز للنماذج الكبيرة السائدة مع الحفاظ على الكفاءة؛

* باستخدام بنية متسلسلة من "الرمز المرئي + الاستعلام السببي"، يتم فصل إعادة الترتيب الدلالي والتوليد التراجعي الذاتي، مما يسمح بالتكيف بشكل طبيعي مع آلية الانتباه أحادية الاتجاه لـ LLM.

هذا التصميم يقضي بشكل فعال على التحيز المكاني للنماذج التقليدية، مما يُمكّن النموذج من تنظيم النصوص والصيغ والجداول ديناميكيًا بناءً على العلاقات الدلالية، تمامًا مثل القراءة البشرية، بدلاً من اتباع مواقع البكسل بشكل آلي.

تم التحقق من ذلك في اختبار OmniDocBench v1.5 المعياري،حقق DeepSeek-OCR 2 دقة إجمالية قدرها 91.091 TP3T مع حد للرموز المرئية يبلغ 1120.بالمقارنة مع النموذج السابق، تحسّن الأداء بمقدار 3.731 نقطة في اختبار TP3T، مع انخفاض مسافة تحرير ترتيب القراءة (ED) من 0.085 إلى 0.057، مما يُظهر تحسّنًا ملحوظًا في فهم المنطق البصري. وفي مهام محددة، تحسّنت دقة تحليل الصيغ بمقدار 6.171 نقطة في اختبار TP3T، وتحسّن أداء فهم الجداول بمقدار يتراوح بين 2.51 و3.051 نقطة في اختبار TP3T، وانخفضت مسافة تحرير النص بمقدار 0.025، محققةً بذلك تقدمًا كبيرًا في جميع المقاييس الأساسية.

وفي الوقت نفسه، فإن جدواها الهندسية متميزة أيضًا: فمع الحفاظ على معدل ضغط الرموز المرئية بمقدار 16 مرة، انخفض معدل تكرار الخدمات عبر الإنترنت من 6.25% إلى 4.17%، وانخفض معدل تكرار معالجة دفعات PDF من 3.69% إلى 2.88%، مع مراعاة كل من الابتكار الأكاديمي واحتياجات التطبيق الصناعي.بالمقارنة مع النماذج المماثلة، يحقق DeepSeek-OCR 2 نتائج قريبة من أو حتى تتجاوز نتائج النماذج ذات المعلمات العالية بتكاليف رمزية بصرية أقل.يوفر حلاً أكثر فعالية من حيث التكلفة لتقنية التعرف الضوئي على الأحرف (OCR) عالية الدقة للمستندات في السيناريوهات ذات الموارد المحدودة.

يتوفر حاليًا برنامج "DeepSeek-OCR 2: Visual Causal Flow" في قسم "الدروس التعليمية" على موقع HyperAI الإلكتروني. انقر على الرابط أدناه لتجربة البرنامج التعليمي للتثبيت بنقرة واحدة ⬇️

رابط البرنامج التعليمي:https://go.hyper.ai/2ma8d

عرض الأوراق ذات الصلة:https://go.hyper.ai/hE1wW

عرض توضيحي للتأثير:

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "DeepSeek-OCR 2 Visual Causal Flow"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA GeForce RTX 5090" و "PyTorch"، واختر "الدفع حسب الاستخدام" أو "الخطة اليومية/الخطة الأسبوعية/الخطة الشهرية" حسب الحاجة، ثم انقر فوق "متابعة تنفيذ المهمة".

تقدم HyperAI فوائد التسجيل للمستخدمين الجدد.احصل على بطاقة رسومات RTX 5090 مقابل 1 TP4T1 فقط. معدل التجزئة(السعر الأصلي $7)المورد صالح بشكل دائم.

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

بعد إعادة توجيه الصفحة، انقر على صفحة README على اليسار، ثم انقر فوق تشغيل في الأعلى.

بمجرد اكتمال العملية، انقر فوق عنوان واجهة برمجة التطبيقات (API) الموجود على اليمين للانتقال إلى صفحة العرض التوضيحي.

ما سبق هو البرنامج التعليمي الذي توصي به HyperAI هذه المرة. الجميع مدعوون للحضور وتجربته!

رابط البرنامج التعليمي:https://go.hyper.ai/2ma8d