الميزات المُثرَّاة بـ Morfessor والتدريب متعدد اللغات للفصل الشكلية القياسي

في مساهمتنا في مهمة SIGMORPHON 2022 المشتركة حول فصل المورفيمات، ندرس ما إذا كان يمكن لطريقة فصل مورفولوجي غير مراقبة، تُسمى Morfessor، أن تُسهم في سياق مراقب. أظهرت الأبحاث السابقة فعالية هذا النهج في السياقات شبه المراقبة عند توفر كميات صغيرة من البيانات المُعلَّمة. وتختلف المهام الحالية من حيث حجم البيانات: إذ أن كمية البيانات التدريبية المُعلَّمة على مستوى الكلمة كبيرة نسبيًا، لكن كمية البيانات التدريبية المُعلَّمة على مستوى الجملة لا تزال صغيرة. نهجنا يتمثل في تقسيم مُسبق للبيانات المدخلة لنموذج تسلسلي تسلسلي عصبي باستخدام الطريقة غير المراقبة. وبما أن الطريقة غير المراقبة يمكن تدريبها باستخدام بيانات نصية خام، نستخدم ويكيبيديا لزيادة كمية البيانات التدريبية. علاوةً على ذلك، نُدرّب نماذج متعددة اللغات لمهام المستوى الجملة. وقد كانت النتائج المتعلقة بالسمات المُغذّاة بـ Morfessor مختلطة، حيث أظهرت فائدة في جميع المهام الثلاثة على مستوى الجملة، لكنها لم تُظهر فائدة في جميع المهام على مستوى الكلمة. كما أسفر التدريب متعدد اللغات عن تحسينات كبيرة مقارنة بالنماذج الأحادية اللغة على مستوى الجملة، لكنه ألغى التأثير الإيجابي للسمات المُغذّاة.