Command Palette
Search for a command to run...
بيسر: نموذج بصري لغوي للتحويل من المستند العربي إلى ماركداون عبر التعرف على الحروف
Khalil Hennara Muhammad Hreden Mohamed Motasim Hamed Ahmad Bastati Zeina Aldallal Sara Chrouf Safwan AlModhayan

الملخص
يظل استخراج النصوص من المستندات العربية (OCR) مُهمّةً صعبةً بسبب الطابع الكوفي للغة العربية، والتنوع في الخطوط، والتحجّيات، والاتجاه من اليمين إلى اليسار. وعلى الرغم من التقدم الذي أحرزه النماذج الكبيرة متعددة الوسائط (MLLMs) الحديثة في فهم المستندات للغات ذات الموارد الكثيرة، إلا أن أداؤها في معالجة النصوص العربية ما زال محدودًا. في هذا العمل، نقدّم نموذج "بَسِير" (Baseer)، وهو نموذج بصري-لغوي تم تحسينه خصيصًا لاستخراج النصوص من المستندات العربية. وتم تدريب النموذج باستخدام مجموعة بيانات ضخمة تجمع بين مستندات مُصَنَّعة ومستندات واقعية، وذلك عبر استراتيجية تحسين من نوع "الكودر فقط" (decoder-only fine-tuning)، بهدف تعديل نموذج MLLM مُدرّب مسبقًا مع الحفاظ على السمات البصرية العامة. كما نقدّم "مِسْرَاج-دوك أو سي آر" (Misraj-DocOCR)، وهو معيار مُعدّ لاختبار دقيق لأنظمة استخراج النصوص من المستندات العربية، يتميّز بجودة عالية وتم التحقق منه من قبل خبراء. تُظهر تجاربنا أن نموذج "بَسِير" يتفوّق بشكل كبير على الحلول المفتوحة المصدر والتجارية الحالية، ويحقق معدل خطأ كلمة (WER) قدره 0.25، مُحدثًا حالة جديدة من الأداء القياسي في مجال استخراج النصوص من المستندات العربية. وتُبرز نتائجنا فوائد التكيّف المخصص للمجالات في النماذج الكبيرة العامة، وتمهّد لقاعدة معيارية قوية لاستخراج نصوص دقيقة في اللغات الغنية من حيث البنية الصورية مثل العربية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.