AlephBERT: نموذج لغوي كبير مُدرب مسبقًا باللغة العبرية لبدء تطبيقات معالجة اللغة الطبيعية بالعبرية الخاصة بك به

لقد أصبحت النماذج اللغوية المدربة مسبقًا الكبيرة (PLMs) شائعة الاستخدام في تطوير تقنية فهم اللغة وتقع في قلب العديد من التقدمات في الذكاء الاصطناعي. بينما كانت التقدمات التي تم الإبلاغ عنها باستخدام نماذج PLMs في اللغة الإنجليزية غير مسبوقة، فإن التقدمات التي تم الإبلاغ عنها باستخدام نماذج PLMs في اللغة العبرية قليلة ومتباعدة. يكمن المشكل في جانبين. أولاً، الموارد المتاحة للتدريب على نماذج معالجة اللغة الطبيعية باللغة العبرية ليست بنفس الحجم الكبير مثل نظيراتها الإنجليزية. ثانياً، لا توجد مهام ومعايير مقبولة لتقدير تقدم نماذج PLMs باللغة العبرية. في هذا العمل، نهدف إلى معالجة كلا الجانبين. أولاً، نقدم AlephBERT، وهو نموذج لغوي مدرب مسبقًا كبير للعبرية الحديثة، حيث يتم تدريبه على مفردات وأمثلة بيانات أكبر من أي نموذج عبري سابق. ثانياً، باستخدام AlephBERT، نقدم نتائج جديدة رائدة على عدة مهام ومعايير عبرية، بما في ذلك: التقسيم (Segmentation)، تصنيف الأجزاء (Part-of-Speech Tagging)، التصنيف الصوري الكامل (full Morphological Tagging)، تحديد الكيانات المسماة (Named-Entity Recognition) وتحليل المشاعر (Sentiment Analysis). سنوفر نموذج AlephBERT بشكل عام للجمهور، مما يوفر نقطة دخول واحدة لتطوير تطبيقات معالجة اللغة الطبيعية باللغة العبرية.