ما وراء الحروف: تقسيم المورفيم على مستوى الفرعي-حرف

تقدم هذه الورقة مساهمات ديب سبين (DeepSPIN) في مهمة التشارك المُشترَكة SIGMORPHON 2022 المتعلقة بفصل الجذور اللفظية. قمنا بتقديم ثلاث مساهمات، جميعها مخصصة للفئة الفرعية الخاصة بالمستوى الكلمي. أولاً، نُظهر أن النماذج التسلسلية ذات الكثافة المنخفضة المستندة إلى entmax تحقق تحسينات كبيرة مقارنة بالنماذج التقليدية المستندة إلى softmax، مما يتوافق مع النتائج المُبلغ عنها في مهام أخرى. ثم، نتحدى الفرضية القائلة بأن النماذج المُخصصة للمهام اللفظية ينبغي تدريبها على مستوى الحرف من خلال بناء نموذج مُحَوِّل (Transformer) يُولِّد الجذور كسلسلة من الوحدات الفرعية التي تُستمد من نموذج لغوي أحادي (unigram language model). أظهر هذا المحول القائم على الوحدات الفرعية تفوقه على جميع نماذجنا التي تم تدريبها على مستوى الحرف، وحقق الفوز في الفئة الفرعية الخاصة بالمستوى الكلمي. وعلى الرغم من عدم تقديم مساهمة رسمية في الفئة الفرعية الخاصة بالمستوى الجملة، نُظهر أن هذا النهج القائم على الوحدات الفرعية فعّال جدًا أيضًا في تلك الفئة.