HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

بيسر: نموذج بصري لغوي للتحويل من المستند العربي إلى ماركداون عبر التعرف على الحروف

Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

بيسر: نموذج بصري لغوي للتحويل من المستند العربي إلى ماركداون عبر التعرف على الحروف

الملخص

يظل استخراج النصوص من المستندات العربية (OCR) مُهمّةً صعبةً بسبب الطابع الكوفي للغة العربية، والتنوع في الخطوط، والتحجّيات، والاتجاه من اليمين إلى اليسار. وعلى الرغم من التقدم الذي أحرزه النماذج الكبيرة متعددة الوسائط (MLLMs) الحديثة في فهم المستندات للغات ذات الموارد الكثيرة، إلا أن أداؤها في معالجة النصوص العربية ما زال محدودًا. في هذا العمل، نقدّم نموذج "بَسِير" (Baseer)، وهو نموذج بصري-لغوي تم تحسينه خصيصًا لاستخراج النصوص من المستندات العربية. وتم تدريب النموذج باستخدام مجموعة بيانات ضخمة تجمع بين مستندات مُصَنَّعة ومستندات واقعية، وذلك عبر استراتيجية تحسين من نوع "الكودر فقط" (decoder-only fine-tuning)، بهدف تعديل نموذج MLLM مُدرّب مسبقًا مع الحفاظ على السمات البصرية العامة. كما نقدّم "مِسْرَاج-دوك أو سي آر" (Misraj-DocOCR)، وهو معيار مُعدّ لاختبار دقيق لأنظمة استخراج النصوص من المستندات العربية، يتميّز بجودة عالية وتم التحقق منه من قبل خبراء. تُظهر تجاربنا أن نموذج "بَسِير" يتفوّق بشكل كبير على الحلول المفتوحة المصدر والتجارية الحالية، ويحقق معدل خطأ كلمة (WER) قدره 0.25، مُحدثًا حالة جديدة من الأداء القياسي في مجال استخراج النصوص من المستندات العربية. وتُبرز نتائجنا فوائد التكيّف المخصص للمجالات في النماذج الكبيرة العامة، وتمهّد لقاعدة معيارية قوية لاستخراج نصوص دقيقة في اللغات الغنية من حيث البنية الصورية مثل العربية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
بيسر: نموذج بصري لغوي للتحويل من المستند العربي إلى ماركداون عبر التعرف على الحروف | الأوراق البحثية | HyperAI