BanglaCoNER: نحو التعرف القوي على الكيانات المحددة المعقدة باللغة البنغالية

تمثّل التعرف على الكيانات المُسمّاة (Named Entity Recognition - NER) مهمة أساسية في معالجة اللغة الطبيعية، وتتمحور حول تحديد وتصنيف الكيانات المُسمّاة في النصوص. ومع ذلك، لا تزال هناك قلة من الدراسات المخصصة للتعامل مع التعرف على الكيانات المعقدة في اللغة البنغالية، على الرغم من أنها تحتل المرتبة السابعة بين اللغات الأكثر نطقًا في العالم. يُعد التعرف على الكيانات المعقدة (CNER) مهمة أكثر صعوبة من NER التقليدية، لأنه يتطلب تحديد وتصنيف كيانات معقدة ومركبة، وهي ظاهرة نادرة في اللغة البنغالية. في هذه الورقة البحثية، نقدّم الحل الفائز في مسابقة التعرف على الكيانات المعقدة في اللغة البنغالية – حيث تم معالجة مهمة CNER على مجموعة بيانات BanglaCoNER باستخدام نهجين مختلفين: نموذج الحقول العشوائية الشرطية (Conditional Random Fields - CRF) وتحسين النماذج العميقة القائمة على المحولات (Transformers) مثل BanglaBERT.تألّفت مجموعة البيانات من 15300 جملة للتدريب و800 جملة للتحقق، بصيغة .conll. أظهر تحليل البيانات الاستكشافي (Exploratory Data Analysis - EDA) أن المجموعة تحتوي على 7 تاقات مختلفة لـ NER، مع وجود ملاحظات واضحة على تواجد كلمات إنجليزية، مما يشير إلى أن المجموعة مُصطنعة وربما ناتجة عن عملية ترجمة.جرّبنا مجموعة متنوعة من مجموعات الميزات، بما في ذلك علامات التصنيف النحوي (POS)، والصيغة اللاحقة للكلمات، وقوائم الجغرافيا (Gazetteers)، ومعلومات التجميع المستمدة من التضمينات (embeddings)، إلى جانب تحسين نموذج BanglaBERT (النسخة الكبيرة) للوظائف المتعلقة بـ NER. ووجدنا أن ليس كل الأنماط اللغوية واضحة فورًا أو حتى مفهومة بسهولة للبشر، وهو ما يفسر لماذا أصبحت النماذج القائمة على التعلم العميق أكثر فعالية في مجال معالجة اللغة الطبيعية، بما في ذلك مهمة CNER. حقق نموذج BanglaBERT (الكبير) المُحسّن لدينا معدل F1 قدره 0.79 على مجموعة التحقق.بشكل عام، تُبرز هذه الدراسة الأهمية البالغة للتعامل مع التعرف على الكيانات المعقدة في اللغة البنغالية، خصوصًا في سياق المجموعات الصناعية. كما تُظهر نتائجنا فعالية النماذج القائمة على التعلم العميق، مثل BanglaBERT، في تطبيقات التعرف على الكيانات المُسمّاة باللغة البنغالية.