نحو التعرف على الكيانات الاسمية بلغة franca باستخدام BERT

استخراج المعلومات هو مهمة مهمة في معالجة اللغة الطبيعية (NLP)، حيث يمكّن من استخراج البيانات تلقائيًا لملء قواعد البيانات العلائقية. تاريخيًا، تم إنتاج الأبحاث والبيانات للنصوص الإنجليزية، ثم تبعتها في السنوات اللاحقة مجموعات بيانات باللغة العربية والصينية (ACE/OntoNotes) والهولندية والإسبانية والألمانية (تقييمات CoNLL) والعديد من اللغات الأخرى. كان الميل الطبيعي هو التعامل مع كل لغة كمجموعة بيانات مختلفة وبناء نماذج محسنة لكل منها. في هذا البحث، ندرس نموذجًا واحدًا للاعتراف بالكيانات المسماة، يستند إلى BERT متعدد اللغات، يتم تدريبه بشكل مشترك على العديد من اللغات في آنٍ واحد، ويستطيع فك شفرة هذه اللغات بدقة أفضل من النماذج التي تم تدريبها على لغة واحدة فقط. لتحسين النموذج الأولي، ندرس استخدام استراتيجيات التنظيم مثل التعلم متعدد المهام والتحديث الجزئي للتدرج. بالإضافة إلى كونه نموذجًا واحدًا يمكنه التعامل مع عدة لغات (بما في ذلك التحويل بين الكودات)، يمكن استخدام هذا النموذج لإصدار تنبؤات بدون رصد للغة جديدة، حتى تلك التي لا تتوفر فيها بيانات التدريب، مباشرةً دون الحاجة إلى تعديل. تظهر النتائج أن هذا النموذج ليس فقط يتنافس بفعالية مع النماذج الأحادية اللغة، بل يحقق أيضًا أفضل النتائج المعروفة حاليًا لمجموعات بيانات CoNLL02 الهولندية والإسبانية ومجموعات بيانات OntoNotes العربية والصينية. علاوة على ذلك، يؤدي أداءً معقولًا على اللغات غير المعروفة مسبقًا، حيث يحقق أفضل النتائج المعروفة حاليًا للتنبؤ بدون رصد لثلاث لغات من CoNLL.