HyperAIHyperAI
منذ 11 أيام

داسي: إطار موحد للغة الدنماركية في معالجة اللغة الطبيعية

Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo
داسي: إطار موحد للغة الدنماركية في معالجة اللغة الطبيعية
الملخص

لقد شهدت معالجة اللغة الطبيعية الدانمركية (NLP) في السنوات الأخيرة تحسينات كبيرة بفضل إضافة مجموعة متنوعة من المجموعات الجديدة والنموذجية. ومع ذلك، لا توجد حاليًا إطار عمل متماسك لتطبيق النماذج الرائدة في مجال معالجة اللغة الدانمركية. نقدم "DaCy": إطار عمل موحد لمعالجة اللغة الدانمركية مبني على مكتبة SpaCy. يعتمد DaCy على نماذج متعددة المهام ذات كفاءة عالية، ويحقق أداءً متفوقًا على مستوى الحالة الحالية في التعرف على الكيانات المميزة، وتحديد الأدوار النحوية، وتحليل الاعتماد النحوي. يحتوي DaCy على أدوات تسهل دمج النماذج الحالية مثل تلك المستخدمة في كشف الشكل العاطفي أو الانفعال أو الموضوعية. بالإضافة إلى ذلك، نفذنا سلسلة من الاختبارات لتقييم التحيزات والثبات في سير عمل معالجة اللغة الدانمركية من خلال تعديل مجموعة اختبار DaNE. وتبين أن نموذج DaCy الكبير يتفوق بشكل ملحوظ، ويتميز بثبات خاص أمام الطول الطويل للمدخلات والتغيرات والخطأ الإملائي. وجميع النماذج باستثناء DaCy الكبير تُظهر تحيزات كبيرة مرتبطة بالانتماء العرقي، في حين أن النموذج Polyglot فقط يُظهر تحيزًا جنسيًا ملحوظًا. ونُجادل بأن لغات محدودة المجموعات المعيارية يمكن أن تستفيد بشكل خاص من التضخيم البياناتي للحصول على تقديرات أداء أكثر واقعية ودقة. ونقدّم مجموعة من أدوات التضخيم كخطوة أولى نحو تقييم أكثر شمولاً للنماذج اللغوية في اللغات ذات الموارد المنخفضة والمتوسطة، ونحث على مزيد من التطوير في هذا المجال.