HyperAIHyperAI
منذ 12 أيام

IndicNLPSuite: مجموعات نصية من لغة واحدة، وأدوات تقييم، ونماذج لغوية متعددة اللغات مُدرَّبة مسبقًا للغات الهندية

{Pratyush Kumar., Mitesh M. Khapra, Avik Bhattacharyya, Gokul N.C., Satish Golla, Anoop Kunchukuttan, Divyanshu Kakwani}
IndicNLPSuite: مجموعات نصية من لغة واحدة، وأدوات تقييم، ونماذج لغوية متعددة اللغات مُدرَّبة مسبقًا للغات الهندية
الملخص

في هذه الورقة، نقدم موارد معالجة اللغة الطبيعية (NLP) لـ 11 لغة رئيسية في الهند من عائلتين لغويتين رئيسيتين. تشمل هذه الموارد ما يلي:(أ) مجموعات نصية واسعة النطاق على مستوى الجملة بلغة واحدة،(ب) تمثيلات كلمات مُدرّبة مسبقًا،(ج) نماذج لغوية مُدرّبة مسبقًا،(د) مجموعات بيانات متعددة لتقييم فهم اللغة (benchmark IndicGLUE).تضم مجموعات النصوص الواسعة 8.8 مليار علامة (token) عبر جميع اللغات الـ11 والإنجليزية الهندية، وتم جمعها بشكل رئيسي من عمليات استخلاص الأخبار (news crawls). تعتمد تمثيلات الكلمات على نموذج FastText، مما يجعلها مناسبة لمعالجة التعقيد الشكلي للغات الهندية. أما النماذج اللغوية المُدرّبة مسبقًا، فتعتمد على نموذج ALBERT المدمج (compact ALBERT). وأخيرًا، نُعدّ benchmark IndicGLUE لتقييم فهم اللغة للغات الهندية. لذا، نُنشئ مجموعات بيانات لمهام متعددة، منها: تصنيف نوع المقال، توقع العنوان الرئيسي، توقع عنوان قسم ويكيبيديا، أسئلة اختيار من متعدد على نمط "كُلْز" (Cloze-style Multiple choice QA)، التقييم النحوي (Winograd NLI)، وتمييز المواقف (COPA). كما نُدرج مجموعات بيانات متاحة للجمهور لبعض اللغات الهندية لمهام مثل التعرف على الكيانات المحددة (Named Entity Recognition)، واسترجاع الجملة عبر لغات مختلفة (Cross-lingual Sentence Retrieval)، وكشف التراكيب المكافئة (Paraphrase detection)، وغيرها. تُظهر تمثيلاتنا الكلمات أداءً تنافسيًا أو أفضل من التمثيلات المُدرّبة مسبقًا الحالية في العديد من المهام. نأمل أن تُسرّع متوفرات هذه البيانات أبحاث معالجة اللغة الطبيعية للغات الهندية، التي تمتلك القدرة على التأثير على أكثر من مليار شخص. كما يمكن أن تساعد المجتمع الأكاديمي في تقييم التقدم المحرز في مجال NLP عبر مجموعة أكثر تنوعًا من اللغات. تتوفر البيانات والنماذج عبر الرابط: https://indicnlp.ai4bharat.org.

IndicNLPSuite: مجموعات نصية من لغة واحدة، وأدوات تقييم، ونماذج لغوية متعددة اللغات مُدرَّبة مسبقًا للغات الهندية | أحدث الأوراق البحثية | HyperAI