HyperAIHyperAI
منذ 2 أشهر

GlotLID: تحديد اللغة لللغات ذات الموارد المحدودة

Amir Hossein Kargaran; Ayyoob Imani; François Yvon; Hinrich Schütze
GlotLID: تحديد اللغة لللغات ذات الموارد المحدودة
الملخص

نشرت عدة أوراق بحثية حديثة حلولًا جيدة لتحديد اللغة (LID) لنحو 300 لغة ذات موارد عالية ومتوسطة. ومع ذلك، لا يوجد نظام لتحديد اللغة يغطي (أ) نطاقًا واسعًا من اللغات ذات الموارد المنخفضة، ويكون (ب) مُقيمًا بدقة وموثوقًا، و(ج) فعالًا وسهل الاستخدام. هنا، ننشر نموذج GlotLID-M لتحديد اللغة الذي يلبي متطلبات التغطية الواسعة والموثوقية والكفاءة. فهو يحدد 1665 لغة، مما يمثل زيادة كبيرة في التغطية مقارنة بالأعمال السابقة. في تجاربنا، أظهر GlotLID-M تفوقه على أربعة نماذج أساسية (CLD3، FT176، OpenLID و NLLB) عند الموازنة بين F1 ومعدل الإيجابيات الكاذبة (FPR). نحلل التحديات الفريدة التي تواجه تحديد اللغات ذات الموارد المنخفضة: بيانات فهرسة المجموعات غير الدقيقة، تسرب اللغات ذات الموارد العالية، صعوبة الفصل بين اللغات المرتبطة ارتباطًا وثيقًا، التعامل مع اللغات الكبرى مقابل الأصناف، وفي العموم البيانات الضوضائية. نأمل أن يؤدي دمج GlotLID-M في خطوط إنتاج المجموعات إلى تحسين الجودة وتعزيز الوصول إلى تقنيات المعالجة اللغوية الطبيعية للغات والثقافات ذات الموارد المنخفضة. يمكن الحصول على نموذج GlotLID-M (بما في ذلك الإصدارات المستقبلية)، والكود، وقائمة مصادر البيانات من الرابط التالي: https://github.com/cisnlp/GlotLID.