HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 12 أيام

MonkeyOCR: تحليل المستندات باستخدام نموذج ثلاثي الهيكل-التمييز-العلاقة

Adam Tauman Kalai Yael Tauman Kalai Or Zamir

MonkeyOCR: تحليل المستندات باستخدام نموذج ثلاثي الهيكل-التمييز-العلاقة

الملخص

نُقدِّم "MonkeyOCR"، وهو نموذج بصري-لغوي لتحليل المستندات، يُحدث تقدّمًا في مستوى الأداء الحالي من خلال الاستفادة من نموذج ثلاثي يُعرف بـ "الهيكل-التحديد-العلاقة" (SRR). ويُبسّط هذا التصميم ما كان سيُشكّل عملية معقدة تتطلب أدوات متعددة (كما هو الحال في النهج المعياري لـ MinerU)، ويُجنب التضييع في الكفاءة الناتج عن معالجة الصفحات الكاملة باستخدام نماذج ضخمة ومتعددة الوسائط في نموذج واحد (مثل النماذج الكبيرة متعددة الوسائط من نوع LLM، مثل Qwen-VL). في نموذج SRR، يتم تبسيط عملية تحليل المستندات إلى ثلاث أسئلة أساسية: "أين هو؟" (الهيكل)، و"ما هو؟" (التحديد)، و"كيف تم تنظيمه؟" (العلاقة)، والتي تتوافق مع تحليل التخطيط، وتحديد المحتوى، والترتيب المنطقي. ويُحقّق هذا التحليل المركّز توازنًا دقيقًا بين الدقة والسرعة، حيث يُمكّن من معالجة فعّالة وقابلة للتوسع دون التضحية بالدقة. ولتدريب وتقييم هذا النهج، نقدّم "MonkeyDoc"، وهو أكبر مجموعة بيانات لتحليل المستندات حتى الآن، تضم 3.9 مليون مثالًا تغطي أكثر من عشرة أنواع من المستندات باللغتين الصينية والإنجليزية. تُظهر النتائج أن MonkeyOCR يتفوّق على MinerU بمتوسط 5.1%، مع تحسّن ملحوظ خصوصًا في المحتوى الصعب مثل الصيغ الرياضية (+15.0%) والجداول (+8.6%). وتميّز بشكل ملحوظ أن نموذجنا بحجم 3B معلمة يتفوّق على نماذج أكبر وأكثر أداءً، بما في ذلك Qwen2.5-VL (72B) وGemini 2.5 Pro، ويحقق أفضل أداء مُسجّل حتى الآن في مهام تحليل المستندات باللغة الإنجليزية. بالإضافة إلى ذلك، يُعالج MonkeyOCR المستندات متعددة الصفحات بشكل أسرع بكثير (0.84 صفحة في الثانية، مقابل 0.65 لـ MinerU و0.12 لـ Qwen2.5-VL-7B). كما يمكن تشغيل النموذج بحجم 3B بكفاءة في التنبؤ باستخدام بطاقة NVIDIA 3090 واحدة.

مستودعات الكود

yuliang-liu/monkeyocr
رسمي
paddle
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MonkeyOCR: تحليل المستندات باستخدام نموذج ثلاثي الهيكل-التمييز-العلاقة | الأوراق البحثية | HyperAI