HyperAIHyperAI
منذ 11 أيام

وصفة بسيطة لتصحيح الأخطاء النحوية متعدد اللغات

Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn
وصفة بسيطة لتصحيح الأخطاء النحوية متعدد اللغات
الملخص

يقدم هذا البحث وصفة بسيطة لتدريب نماذج متعددة اللغات حديثة لتصحيح الأخطاء النحوية (GEC). نحقق ذلك من خلال اقتراح طريقة غير مرتبطة باللغة لإنشاء عدد كبير من الأمثلة الاصطناعية كأول خطوة، ثم استخدام نماذج لغوية متعددة اللغات كبيرة الحجم (تصل إلى 11 مليار معلمة) كعنصر ثانٍ. وبعد التدقيق الدقيق على مجموعات بيانات محددة باللغة، نتجاوز النتائج السابقة المُحسَّنة في معايير تصحيح الأخطاء النحوية (GEC) في أربع لغات: الإنجليزية، التشيكية، الألمانية، والروسية. وبمجرد إرساء مجموعة جديدة من المعايير المرجعية لـ GEC، نضمن سهولة إعادة إنتاج النتائج ووصولها من خلال نشر مجموعة بيانات cLang-8. تم إنشاء cLang-8 باستخدام أفضل نموذج لدينا، الذي أطلقنا عليه اسم gT5، لتنقية أهداف مجموعة بيانات Lang-8 الشهيرة لكنها غير دقيقة. وتُبسط cLang-8 نماذج التدريب التقليدية لـ GEC التي تتضمن عدة مراحل من التدقيق الدقيق — حيث نُظهر أنه من خلال إجراء خطوة تدقيق دقيق واحدة فقط على cLang-8 باستخدام نماذج لغوية جاهزة، يمكن تحقيق تحسينات إضافية في الدقة مقارنة بنموذج gT5 الأفضل أداءً بالفعل في اللغة الإنجليزية.

وصفة بسيطة لتصحيح الأخطاء النحوية متعدد اللغات | أحدث الأوراق البحثية | HyperAI