HyperAIHyperAI
منذ 17 أيام

تعلم عامل تمييز الكيانات الاسمية الموحّدة من مجموعات نصية متعددة مُعلّمة جزئيًا لتمكين التكيّف الفعّال

Xiao Huang, Li Dong, Elizabeth Boschee, Nanyun Peng
تعلم عامل تمييز الكيانات الاسمية الموحّدة من مجموعات نصية متعددة مُعلّمة جزئيًا لتمكين التكيّف الفعّال
الملخص

تمييز الكيانات المعرفة (NER) يُحدد الإشارات إلى الكيانات ذات الأنواع في النص الخام. وعلى الرغم من أن المهمة مُستقرة جيدًا، إلا أنه لا يوجد مجموعة علامات (tagset) موحدة تُستخدم على نطاق واسع: غالبًا ما تُعلّم البيانات لاستخدامها في تطبيقات لاحقة، وبالتالي تغطي فقط مجموعة صغيرة من أنواع الكيانات ذات الصلة بمهام محددة. على سبيل المثال، في المجال الطبي الحيوي، قد تُعلّم مجموعة نصية واحدة الكيانات المرتبطة بالجينات، بينما تُعلّم أخرى الكيانات المرتبطة بالمواد الكيميائية، وثالثة تُعلّم الكيانات المرتبطة بالأمراض—رغم أن النصوص في كل مجموعة تحتوي على إشارات إلى جميع أنواع الكيانات الثلاثة. في هذا البحث، نقترح نموذجًا عميقًا منظمًا لدمج هذه "المجموعات المُعلّمة جزئيًا" بهدف تحديد جميع أنواع الكيانات التي تظهر في مجموعات التدريب بشكل مشترك. وباستغلال عدة مجموعات بيانات، يمكن للنموذج تعلُّم تمثيلات دخول قوية؛ وبفضل بناء نموذج منظم مشترك، يتجنب التعارضات المحتملة الناتجة عن دمج تنبؤات عدة نماذج في وقت الاختبار. تُظهر التجارب أن النموذج المقترح يتفوّق بشكل ملحوظ على نماذج التعلم متعدد المهام القوية عند التدريب على عدة مجموعات بيانات جزئيًا مُعلّمة، واختبارها على مجموعات بيانات تحتوي على علامات من أكثر من واحدة من مجموعات التدريب.

تعلم عامل تمييز الكيانات الاسمية الموحّدة من مجموعات نصية متعددة مُعلّمة جزئيًا لتمكين التكيّف الفعّال | أحدث الأوراق البحثية | HyperAI