HyperAI

مع 2.6 ألف نجمة، يتفوق MonkeyOCR-3B على نموذج 72B في مهمة تحليل المستندات الإنجليزية ويصل إلى أداء SOTA

特色图像

اليوم، لم تعد تقنية التعرف الضوئي على الحروف (OCR) مقتصرة على التعرف على النصوص، بل تتطور تدريجيًا إلى نظام تحليل مستندات أكثر تعقيدًا. بدءًا من استخراج الحروف البسيط في البداية، وصولًا إلى النموذج متعدد الوسائط الكبير الذي ظهر في السنوات الأخيرة،تم دمج التعرف الضوئي على الحروف (OCR) في مهام مثل فهم التخطيط والتعرف الدلالي واستعادة البنية، وتم استخدامه على نطاق واسع في التعرف على المستندات والتعرف على العناوين الفرعية والفرز اللوجستي واسترجاع الأدبيات وغيرها من المجالات.وتضع سيناريوهات التطبيق الغنية أيضًا متطلبات أكثر صرامة على النموذج.

على سبيل المثال، تعتمد معظم نماذج التعرف الضوئي على الحروف (OCR) التقليدية تصميمًا معياريًا، يتطلب تحليل المستندات إلى مهام فرعية متعددة ودقيقة، وهو ما يُعدّ غير فعال ويصعب تحسينه بشكل موحد. على الرغم من قوة النموذج الكبير الشامل، إلا أنه يتطلب موارد عالية للغاية ويصعب تطبيقه عالميًا. لا تزال المستندات المعقدة المكونة من عناصر متعددة، مثل النصوص والجداول والتعبيرات الرياضية والرسومات المضمنة، تُشكّل "ضررًا بالغًا" على الدقة...

وفي ضوء ذلك،أطلقت جامعة هواتشونغ للعلوم والتكنولوجيا وشركة Kingsoft Office نموذجًا مشتركًا لتحليل المستندات يسمى MonkeyOCR.يمكنه تحويل محتوى المستندات غير المهيكلة بكفاءة إلى معلومات مهيكلة. في نموذج SRR، يُلخص تحليل المستندات في ثلاثة أسئلة أساسية: أين (الهيكل)، وماذا (التعرف)، وكيفية التنظيم (العلاقة)، والتي تتوافق مع تحليل التخطيط، والتعرف على المحتوى، والفرز المنطقي، على التوالي. يحقق هذا التحليل الواضح للمهام توازنًا بين الدقة والسرعة.يدعم المعالجة الفعالة والقابلة للتطوير دون المساس بالدقة.

من أجل توفير دعم بيانات كافٍ للنموذج، قام فريق البحث ببناء مجموعة بيانات تسمى MonkeyDoc.هذه هي مجموعة بيانات تحليل المستندات الأكثر شمولاً حتى الآن، حيث تحتوي على 3.9 مليون مثيل وتغطي مجموعة متنوعة من أنواع المستندات (مثل الملاحظات، وعروض PowerPoint، والمجلات، وأوراق الاختبار، وما إلى ذلك).وفي الوقت نفسه، يتم أيضًا تمييز الكتل الهيكلية المختلفة (الجداول والصور والنصوص والصيغ وما إلى ذلك) بالتفصيل.

وبحسب النتائج التجريبية التي أجراها فريق البحث، فإن أداء MonkeyOCR جيد عند معالجة المستندات المعقدة، مثل تلك التي تحتوي على صيغ وجداول.تم تحسين الأداء في مهام تحليل الصيغة والجدول بمقدار 15.0% و8.6% على التوالي.كما أنه يتفوق على النماذج الأخرى بكثير من حيث سرعة معالجة المستندات متعددة الصفحات، حيث يصل إلى 0.84 صفحة في الثانية.

تجدر الإشارة إلى أنه في مهمة تحليل المستندات الإنجليزية، يتفوق نموذج معلمات 3B على نموذج 72B السائد، ويصل متوسط الأداء إلى مستوى SOTA. اليوم، لم يمضِ شهر على إطلاق MonkeyOCR، ووصل عدد مستخدميه على GitHub إلى 2.6 ألف.

تم إطلاق "MonkeyOCR: تحليل المستندات بناءً على النموذج الثلاثي للبنية والتعرف على العلاقة" في قسم "البرنامج التعليمي" على الموقع الرسمي لـ HyperAI Super Neural (hyper.ai)، تعال وجربه⬇️

رابط البرنامج التعليمي:

https://go.hyper.ai/Llixk

تشغيل تجريبي

1. بعد الدخول إلى الصفحة الرئيسية لـ hyper.ai، حدد صفحة "البرنامج التعليمي"، ثم حدد "MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. حدد الصورتين "NVIDIA GeForce RTX 4090" و"PyTorch". توفر منصة OpenBayes أربع طرق للدفع. يمكنك اختيار "الدفع حسب الاستخدام" أو "يوميًا/أسبوعيًا/شهريًا" وفقًا لاحتياجاتك. انقر فوق "متابعة". يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. انتظر حتى يتم تخصيص الموارد. تستغرق عملية الاستنساخ الأولى حوالي دقيقتين. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق سهم الانتقال بجوار "عنوان API" للانتقال إلى صفحة العرض التوضيحي. يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير

حمّل ملف PDF أو صورة، ثم انقر على "تحليل" لتحليلها. إذا اخترت وضع "الدردشة"، فعليك تحديد "إشعار" في "تحديد إشعار".

ستظهر نتائج الإخراج في "عرض النتائج". انقر على "تنزيل تنسيق PDF/تنزيل Markdown" لتنزيل مستند PDF/Markdown على جهازك.

ما سبق هو البرنامج التعليمي المُوصى به لهذه المشكلة. نرحب بالجميع لتجربته ⬇️

رابط البرنامج التعليمي:

https://go.hyper.ai/Llixk