دورة تعليمية عبر الإنترنت | تحليل سياقي لعشرات الصفحات من المستندات دفعة واحدة: برنامج بايدو مفتوح المصدر للتعرف الضوئي على الأحرف غير المحدود، إعادة هيكلة السيناريوهات المعقدة مع المستندات الطويلة

منذ 3 ساعات

على مدى السنوات القليلة الماضية، تطورت تقنية التعرف الضوئي على الحروف (OCR) تدريجيًا من مجرد "التعرف على النصوص في الصور" إلى مهمة فهم شاملة للمستندات. لا تحتاج المؤسسات والمطورون إلى استخراج النصوص فحسب، بل يرغبون أيضًا في نماذج قادرة على التعرف على تخطيطات الصفحات المعقدة، وتحليل الجداول والصيغ، وفهم التخطيطات متعددة الأعمدة، وفي النهاية إخراج نتائج منظمة مناسبة لتطبيقات RAGs وقواعد المعرفة وأتمتة المكاتب. ومع ذلك، عند معالجة المستندات الطويلة مثل التقارير الممسوحة ضوئيًا والأوراق وعروض PowerPoint والعقود وملفات PDF متعددة الصفحات...غالباً ما تتطلب عمليات التعرف الضوئي على الأحرف التقليدية استدلالاً صفحة بصفحة متبوعاً بالمعالجة اللاحقة والدمج، وهو أمر ليس غير فعال فحسب، بل إنه عرضة أيضاً للتسبب في تجزئة المعلومات السياقية.

تُحسّن نماذج التعرف الضوئي على الأحرف (OCR) الشاملة من الجيل التالي، مثل DeepSeek OCR، دقة التعرف وقدرات تحليل التخطيطات المعقدة بشكل ملحوظ من خلال دمج نموذج لغوي ضخم كوحدة فك تشفير والاستفادة الكاملة من المعلومات اللغوية المسبقة. ومع ذلك، يبرز تحدٍ جديد: فمع ازدياد حجم المحتوى الناتج، تتراكم ذاكرة التخزين المؤقت للقيم الرئيسية للنموذج، مما يؤدي إلى زيادة استهلاك الذاكرة وتباطؤ سرعة الإنتاج. بعبارة أخرى،كلما اقترب النموذج من نهاية المستند، زادت تكلفة الاستدلال.

يُعالج نظام التعرف الضوئي على الأحرف غير المحدود (Unlimited OCR) الذي أطلقته بايدو مؤخرًا كمصدر مفتوح هذه المشكلة في الصناعة. يعتمد هذا النظام على تقنية DeepSeek OCR، ويُقدم آلية انتباه جديدة تعتمد على نافذة منزلقة مرجعية (R-SWA)، لتحل محل آلية الانتباه التقليدية في وحدة فك التشفير. يُقلل هذا من التكلفة الحسابية للانتباه مع الحفاظ على حجم ذاكرة التخزين المؤقت للقيم والمفاتيح ثابتًا طوال عملية فك التشفير. وبالإضافة إلى قدرات ضغط المعلومات العالية لوحدة تشفير DeepSeek OCR،يمكن لتقنية التعرف الضوئي على الأحرف غير المحدودة إكمال التعرف الضوئي على الأحرف وتحليل تخطيط عشرات الصفحات من المستندات في استدلال أمامي واحد، ضمن طول السياق الافتراضي البالغ 32 كيلوبايت.يُقدّم هذا نهجًا جديدًا وأكثر جدوى هندسيًا لمعالجة المستندات الطويلة. والأهم من ذلك، أن R-SWA لا يقتصر تطبيقه على التعرف الضوئي على الأحرف (OCR) فحسب، بل لديه أيضًا إمكانية التوسع ليشمل مهام تحليل التسلسلات الطويلة مثل التعرف التلقائي على الكلام (ASR) والترجمة الآلية.

أطلقت شركة HyperAI (hyper.ai) مؤخرًا البرنامج التعليمي "التعرف الضوئي على الأحرف غير المحدود: نشر بنقرة واحدة للتعرف الضوئي على الأحرف وتحليل تخطيط المستندات الطويلة"، مما يقلل من عتبة النشر ويساعد على التحقق من صحة النماذج بسرعة. ⬇️

تشغيل عبر الإنترنت:https://go.hyper.ai/YfaB5

عرض الأوراق ذات الصلة:https://go.hyper.ai/PZsJo

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لموقع hyper.ai، حدد صفحة "الدروس التعليمية"، أو انقر فوق "عرض المزيد من الدروس التعليمية"، وحدد "Unlimited-OCR: One-Click Deployment of Long Document OCR and Layout Parsing"، ثم انقر فوق "تشغيل هذا البرنامج التعليمي".

2. بعد إعادة توجيه الصفحة، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

ملاحظة: يمكنك تبديل اللغات في الزاوية العلوية اليمنى من الصفحة. حاليًا، اللغتان الصينية والإنجليزية متاحتان. سيوضح هذا البرنامج التعليمي الخطوات باللغة الإنجليزية.

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

4. انتظر حتى يتم تخصيص الموارد. بمجرد أن تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل" للدخول إلى مساحة عمل Jupyter.

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بعد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين لفتح واجهة العرض التوضيحي.

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

برنامج تعليمي عبر الإنترنت | NVIDIA مفتوح المصدر LocateAnything، وهو نموذج 3B يمكّن من تحديد الهدف في الصور والفيديو، واكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع الهدف، وتحديد موقع نص OCR، ووظائف أخرى.

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

HyperAI

دورة تعليمية عبر الإنترنت | تحليل سياقي لعشرات الصفحات من المستندات دفعة واحدة: برنامج بايدو مفتوح المصدر للتعرف الضوئي على الأحرف غير المحدود، إعادة هيكلة السيناريوهات المعقدة مع المستندات الطويلة

منذ 3 ساعات

تشغيل عبر الإنترنت:https://go.hyper.ai/YfaB5

عرض الأوراق ذات الصلة:https://go.hyper.ai/PZsJo

المزيد من الدروس التعليمية عبر الإنترنت:

https://hyper.ai/notebooks

تشغيل تجريبي

3. حدد صور "NVIDIA RTX 5090" و "PyTorch"، وانقر فوق "متابعة تنفيذ المهمة".

عرض التأثير

1. بعد إعادة توجيه الصفحة، انقر على ملف README الموجود على اليسار، ثم انقر على تشغيل في الأعلى.

2. بعد اكتمال العملية، انقر فوق عنوان API الموجود على اليمين لفتح واجهة العرض التوضيحي.

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

برنامج تعليمي عبر الإنترنت | تعديل ضخم باستخدام بطاقة SIM واحدة: MiniCPM-V-4.6، نموذج مفتوح المصدر بحجم 1.3 مليار يدعم فهم الصور/فهم الفيديو/التعرف الضوئي على الأحرف/الحوار متعدد الوسائط متعدد الأدوار (باستخدام Wallfacer ومكتبات مفتوحة المصدر أخرى).

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

قامت شركة Tencent بفتح نموذج الترجمة Hy-MT1.5: 440MB يحقق قدرات ترجمة من الدرجة الأولى؛ وقام معهد ماساتشوستس للتكنولوجيا بإصدار MathNet بشكل مشترك: وهو معيار استدلال رياضي متعدد الوسائط يغطي 27000 مسألة رياضية حقيقية من أولمبياد الرياضيات.

نموذج كشف الخصوصية قابل للتشغيل محليًا: يحقق مرشح الخصوصية تصفية عالية الجودة للمعلومات الشخصية بتكلفة منخفضة؛ مفتوح المصدر بالكامل! يغطي مجموعة بيانات كرة القدم المنظمة من Transfermarkt التي تضم أكثر من 80000 مباراة.

برنامج تعليمي عبر الإنترنت | NVIDIA مفتوح المصدر LocateAnything، وهو نموذج 3B يمكّن من تحديد الهدف في الصور والفيديو، واكتشاف الكائنات ذات المفردات المفتوحة، وتحديد موقع الهدف، وتحديد موقع نص OCR، ووظائف أخرى.

برنامج تعليمي مجاني عبر الإنترنت لوحدة المعالجة المركزية | وكيل هيرمس: تعلم الذاكرة طويلة المدى؟ يمكن لملحق تحسين الذاكرة TencentDB Agent Memory تخزين الحقائق والتفضيلات وحالات المهام وما إلى ذلك بشكل منفصل.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

Command Palette

تشغيل تجريبي

عرض التأثير

Command Palette

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

Command Palette

تشغيل تجريبي

عرض التأثير

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة

ذات صلة الأخبار

سريع ودقيق! شركة Cohere تُصدر نموذج نسخ مفتوح المصدر؛ تحليل دقيق للسيناريوهات المعقدة: نموذج اللغة المرئي Chandra-ocr-2 يحقق التعرف الضوئي على الأحرف بدقة عالية.

حقق "حرية التعليق الصوتي" باستخدام 3 ثوانٍ فقط من الصوت: نموذج الكلام مفتوح المصدر Mistral Voxtral-4B-TTS-2603؛ وضع معيارًا جديدًا لجودة البيانات: Sutra 10B Pretraining.

دليل تعليمي عبر الإنترنت | دليل شامل لتتبع التعليمات/الاستدلال/البرمجة: ميسترال ميديوم 3.5 ينقل وكلاء البرمجة إلى السحابة

دروس تعليمية عبر الإنترنت | حجم صغير، قوة برمجية كبيرة: جهاز Qwen3.6-27B يحقق إمكانيات برمجة على مستوى الأجهزة الرائدة