منذ 11 أيام
استخدام تحريرات ويكيبيديا في تصحيح الأخطاء النحوية في الموارد المنخفضة
{Adriane Boyd}

الملخص
نُطوّر نظامًا لتصحيح الأخطاء النحوية (GEC) باللغة الألمانية باستخدام مجموعة صغيرة من البيانات المُصَحَّحة يدويًا (الـ gold GEC) تم توسيعها بتعديلات استُخلِصت من سجلات التعديلات في ويكيبيديا. ونُوسِّع أداة التصنيف التلقائي للأخطاء ERRANT (Bryant et al., 2017) لدعم اللغة الألمانية، ونستخدمها لتحليل كل من التصويبات المُصَحَّحة يدويًا في مجموعة البيانات الذهبية وتعديلات ويكيبيديا (Grundkiewicz و Junczys-Dowmunt, 2014)، بهدف اختيار تعديلات ويكيبيديا كبيانات تدريب إضافية تحتوي على تصويبات نحوية مشابهة لتلك الموجودة في المجموعة الذهبية. وباستخدام نموذج GEC يعتمد على شبكة عصبية مُشفَّرة-مُفكَّكة متعددة الطبقات (Chollampatt و Ng, 2018)، نقيّم مساهمة تعديلات ويكيبيديا، ونجد أن تعديلات ويكيبيديا المختارة بعناية تُحسِّن الأداء بنسبة تزيد عن 5%.