CLUZH في مهام المشاركة المشتركة SIGMORPHON 2022 المتعلقة بتقسيم المورفيم وإنشاء التشكيل

يصف هذا البحث مشاركات فريق قسم اللسانيات الحسابية بجامعة زيورخ في مهام التشارك المُنْظَّمة من قبل SIGMORPHON 2022، المُتَعَلِّقة بفصل الجذور اللغوية وإنشاء التشكيل الصرفية. تعتمد مشاركاتنا على نموذج عصبي مُحَوِّل على مستوى الحروف، يعمل باستخدام الإجراءات التقليدية للتعديل (edit actions). وعلى الرغم من أن هذا النموذج قد أُثبت أنه مناسب بشكل خاص للسياقات ذات الموارد المحدودة، إلا أن استخدامه مع كميات كبيرة من البيانات كان مُحَدَّدًا. إذ لم تتمكن النُسخ السابقة من الاستفادة الكاملة من تسريع وحدة معالجة الرسومات (GPU)، ولم تُنَفِّذ تدريبات الدُفعات الصغيرة (mini-batch) بكفاءة، وهو ما قد يكون مُحَدِّقًا خصوصًا لنظام مبني على الانتقال (transition-based). وللمشاركة هذا العام، قمنا بتحويل النموذج العصبي إلى إطار PyTorch، ونَفَّذنا تدريبات دُفعات حقيقية (true mini-batch training). وقد مكَّنَنا هذا التحويل من تمكين النموذج من التوسع بفعالية على كميات كبيرة من البيانات، وتمكَّنَّا من إجراء تجارب واسعة النطاق. ونُعَلِّم نتائج تنافسية في فصل الجذور اللغوية (بما في ذلك مشاركة المركز الأول في الجزء الثاني من التحدي). كما نُظهر أن تقليل مشكلة فصل الجذور على مستوى الجملة إلى مشكلة على مستوى الكلمة هو استراتيجية بسيطة لكنها فعالة. وبالإضافة إلى ذلك، نُسجِّل نتائج قوية في إنشاء التشكيل الصرفية (أفضل نتيجة عامة في الحالة التي تستخدم كميات كبيرة من البيانات في الجزء الأول، وأفضل النتائج في مسارات التعلم ذات الموارد المحدودة في الجزء الثاني). ويجدر بالإشارة إلى أن الكود الخاص بنا مُتاح للجمهور.