وصفة بسيطة لتصحيح الأخطاء النحوية متعدد اللغات

يقدم هذا البحث وصفة بسيطة لتدريب نماذج متعددة اللغات حديثة لتصحيح الأخطاء النحوية (GEC). نحقق ذلك من خلال اقتراح طريقة غير مرتبطة باللغة لإنشاء عدد كبير من الأمثلة الاصطناعية كأول خطوة، ثم استخدام نماذج لغوية متعددة اللغات كبيرة الحجم (تصل إلى 11 مليار معلمة) كعنصر ثانٍ. وبعد التدقيق الدقيق على مجموعات بيانات محددة باللغة، نتجاوز النتائج السابقة المُحسَّنة في معايير تصحيح الأخطاء النحوية (GEC) في أربع لغات: الإنجليزية، التشيكية، الألمانية، والروسية. وبمجرد إرساء مجموعة جديدة من المعايير المرجعية لـ GEC، نضمن سهولة إعادة إنتاج النتائج ووصولها من خلال نشر مجموعة بيانات cLang-8. تم إنشاء cLang-8 باستخدام أفضل نموذج لدينا، الذي أطلقنا عليه اسم gT5، لتنقية أهداف مجموعة بيانات Lang-8 الشهيرة لكنها غير دقيقة. وتُبسط cLang-8 نماذج التدريب التقليدية لـ GEC التي تتضمن عدة مراحل من التدقيق الدقيق — حيث نُظهر أنه من خلال إجراء خطوة تدقيق دقيق واحدة فقط على cLang-8 باستخدام نماذج لغوية جاهزة، يمكن تحقيق تحسينات إضافية في الدقة مقارنة بنموذج gT5 الأفضل أداءً بالفعل في اللغة الإنجليزية.