HyperAIHyperAI
منذ 17 أيام

HiNER: مجموعة بيانات كبيرة للتعرف على الكيانات المحددة باللغة الهندية

Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya
HiNER: مجموعة بيانات كبيرة للتعرف على الكيانات المحددة باللغة الهندية
الملخص

تمثّل التعرف على الكيانات المحددة (Named Entity Recognition - NER) مهمة أساسية في معالجة اللغة الطبيعية (NLP)، وتهدف إلى تزوييد الكلمات في النص الحر بعلامات تصنيف مثل: شخص، مكان، منظمة، وقت، وعدد. كما يمكن أن تكون الكيانات المحددة عبارة عن تعبيرات متعددة الكلمات، حيث تُسهم معلومات التسمية الإضافية من نوع I-O-B في تسمية هذه الكيانات أثناء عملية تسمية NER. وعلى الرغم من توفر كمّ كبير من البيانات المُعلّمة لمهام NER باللغة الإنجليزية ولغات أوروبية أخرى، فإن اللغات الهندية تعاني من نقص كبير في هذا الصدد، سواء من حيث الكمية أو الالتزام بمعايير التسمية. تقدم هذه الورقة البحثية مجموعة بيانات مُعلّمة معيارية للغة الهندية ذات حجم كبير، تتضمن 109,146 جملة و2,220,856 مُكونًا (Token)، تم تسميتها باستخدام 11 علامة. نقدّم في الدراسة تحليلًا مفصّلاً للإحصائيات المتعلقة بالبيانات، مع التركيز على التفاصيل الجوهرية، ونقدّم أيضًا تحليلًا عميقًا لمجموعة العلامات المستخدمة في بياناتنا. تُظهر الإحصائيات المتعلقة بمجموعة العلامات توزيعًا صحيًا لكل علامة، خاصةً الفئات البارزة مثل: الشخص، المكان، والمنظمة. وبما أن دليل فعالية الموارد يكمن في بناء نماذج باستخدام هذه الموارد واختبار الأداء على بيانات معيارية ومقارنتها بنتائج المشاركين في المهام المشتركة، فقد قمنا بنفس النهج باستخدام البيانات المذكورة أعلاه. استخدمنا نماذج لغوية مختلفة لأداء مهمة تسمية التسلسل في NER، وبيّنا فعالية بياناتنا من خلال تقييم مقارن بين النماذج التي تم تدريبها على هذه المجموعة والبيانات الأخرى المتاحة لمهام NER باللغة الهندية. تمكّن بياناتنا من تحقيق درجة F1 موزونة تبلغ 88.78 مع جميع العلامات، و92.22 عند تجميع مجموعة العلامات، كما ناقشنا في الورقة. إلى حد معرفتنا، لا توجد أي مجموعة بيانات متاحة تحقق معايير الحجم (الكمية) والتنوع (التنوع) في نفس الوقت بالنسبة لمهام NER باللغة الهندية. ونملأ هذا الفجوة من خلال هذا العمل، الذي نأمل أن يُسهم بشكل كبير في تطوير معالجة اللغة الطبيعية للغة الهندية. نُطلق هذه المجموعة البيانات مع الشيفرة والنماذج المُدرّبة عبر الرابط: https://github.com/cfiltnlp/HiNER