نهج منخفض الموارد لتصحيح الأخطاء النحوية للغة الأوكرانية

نقدّم نظامنا الذي شارك في المهمة المشتركة المتعلقة بتصحيح الأخطاء النحوية في اللغة الأوكرانية. وقد قمنا بتنفيذ طريقتين تستخدمان نماذج لغوية كبيرة مُدرّبة مسبقًا وبيانات اصطناعية، وقد استُخدمت هذه الأساليب في تصحيح الأخطاء النحوية للغة الإنجليزية واللغات ذات الموارد المحدودة. الأولى تعتمد على التدرّب الدقيق (fine-tuning) لنموذج لغوي متعدد اللغات كبير (mT5) على مرحلتين: الأولى على بيانات اصطناعية، والثانية على بيانات حقيقية (gold data). والطريقة الثانية تدرّب نموذج تحويل تسلسلي-تسلسلي (seq2seq) أصغر مُدرّب مسبقًا على بيانات اصطناعية، ثم يتم تحسينه على بيانات حقيقية. وقد حقق نموذجنا المستند إلى mT5 المركز الأول في المسار "تصحيح الأخطاء النحوية فقط" (GEC only)، والمركز الثاني المُقرّب جدًا في المسار "GEC+السلاسة" (GEC+Fluency). وتشكل Innovations الرئيسية لدينا هما (1) التدرّب الدقيق على مراحل، أولاً على البيانات الاصطناعية، ثم على البيانات الحقيقية؛ و(2) طريقة عالية الجودة لتشويه النصوص (corruption method) تعتمد على الترجمة الآلية ذهابًا وإيابًا (roundtrip machine translation) لتعزيز الطرق الحالية لتقديم الضوضاء (noisification).