تحليل النماذج المُدمجة للكلمات السياقية وغير السياقية لاستخراج الأسماء المميزة بالهندية باستخدام تطبيق ويب لجمع البيانات
تم التعرف على الكيانات المحددة (NER) كعملية تقوم بتحليل سلسلة نصية وتحديد الأسماء الخاصة ذات الصلة بها. في هذا البحث، نُقرِّر تطوير نظام لتمييز الكيانات المحددة باللغة الهندية، باستخدام الخط الدافاناغاري، مع استخدام نماذج متعددة للتمثيل المضموني (Embedding). نصنف هذه التمثيلات إلى نوعين: التمثيلات السياقية وغير السياقية، ثم نقوم بمقارنة هذه النماذج داخل كل فئة وخارجها. فيما يخص التمثيلات غير السياقية، نختبر نماذج Word2Vec وFastText، أما في فئة التمثيلات السياقية، فيتم اختبار نماذج BERT ومتغيراتها، مثل RoBERTa وELECTRA وCamemBERT وDistil-BERT وXLM-RoBERTa. بالنسبة للتمثيلات غير السياقية، نستخدم خمسة خوارزميات تعلم آلي، هي: فاصل NB الغاوسي، وفاصِل Adaboost، وفاصِل الشبكة العصبية متعددة الطبقات (Multi-layer Perceptron)، وفاصِل الغابة العشوائية (Random Forest Classifier)، وفاصِل شجرة القرار (Decision Tree Classifier)، بهدف تطوير عشرة نماذج لتمييز الكيانات المحددة باللغة الهندية، حيث يُستخدم كل نموذج مرة واحدة مع FastText ومرة أخرى مع نموذج Word2Vec من مكتبة Gensim. ثم تُقارَن هذه النماذج مع النماذج القائمة على نماذج التحول (Transformers) التي تعتمد على التمثيل السياقي، باستخدام BERT ومتغيراتها. ويتم إجراء دراسة مقارنة شاملة بين جميع نماذج NER المذكورة. في النهاية، يُختار أفضل نموذج بين جميع النماذج، ويُبنى تطبيق ويب يقبل نصًا هنديًا بأي طول، ويُعيد تسمية كل كلمة بعلامة NER، ويستقبل ملاحظات من المستخدم حول دقة هذه العلامات. وتُسهم هذه الملاحظات في جمع بيانات إضافية لتحسين النظام لاحقًا.