منذ 2 أشهر

75 لغة، نموذج واحد: تحليل الاعتمادية العالمية بشكل شامل

Dan Kondratyuk; Milan Straka

الملخص

نقدم لكم UDify، وهو نموذج متعدد اللغات ومهمات قادر على التنبؤ بدقة بفئات الكلمات العالمية (Universal Part-of-Speech)، الخصائص التركيبية، الألفاظ الأصلية (lemmas)، والأشجار الاعتمادية (dependency trees) بشكل متزامن لجميع 124 قاعدة بيانات الاعتمادية العالمية (Universal Dependencies treebanks) في 75 لغة. من خلال الاستفادة من نموذج BERT ذاتي الانتباه المتعدد اللغات المدرب مسبقًا على 104 لغات، وجدنا أن تحسينه الدقيق على جميع البيانات المجمعة مع تصنيفات softmax بسيطة لكل مهمة UD يمكن أن يؤدي إلى درجات UPOS، UFeats، Lemmas، UAS، وLAS رائدة في مجالها، دون الحاجة إلى أي مكونات متكررة أو خاصة باللغة. نقيم أداء UDify في التعلم المتعدد اللغات، مما يظهر أن اللغات ذات الموارد المنخفضة تستفيد أكثر من التوقيعات عبر اللغويات. كما نقوم بتقييمه للتعلم بدون أمثلة (zero-shot learning)، حيث تشير النتائج إلى أن التدريب المتعدد اللغات يوفر توقعات قوية للUD حتى بالنسبة للغات التي لم يتم تدريب UDify أو BERT عليها أبدًا. يمكن الحصول على كود UDify من الرابط: https://github.com/hyperparticle/udify.