HyperAIHyperAI
منذ 11 أيام

استخدام تحريرات ويكيبيديا في تصحيح الأخطاء النحوية في الموارد المنخفضة

{Adriane Boyd}
استخدام تحريرات ويكيبيديا في تصحيح الأخطاء النحوية في الموارد المنخفضة
الملخص

نُطوّر نظامًا لتصحيح الأخطاء النحوية (GEC) باللغة الألمانية باستخدام مجموعة صغيرة من البيانات المُصَحَّحة يدويًا (الـ gold GEC) تم توسيعها بتعديلات استُخلِصت من سجلات التعديلات في ويكيبيديا. ونُوسِّع أداة التصنيف التلقائي للأخطاء ERRANT (Bryant et al., 2017) لدعم اللغة الألمانية، ونستخدمها لتحليل كل من التصويبات المُصَحَّحة يدويًا في مجموعة البيانات الذهبية وتعديلات ويكيبيديا (Grundkiewicz و Junczys-Dowmunt, 2014)، بهدف اختيار تعديلات ويكيبيديا كبيانات تدريب إضافية تحتوي على تصويبات نحوية مشابهة لتلك الموجودة في المجموعة الذهبية. وباستخدام نموذج GEC يعتمد على شبكة عصبية مُشفَّرة-مُفكَّكة متعددة الطبقات (Chollampatt و Ng, 2018)، نقيّم مساهمة تعديلات ويكيبيديا، ونجد أن تعديلات ويكيبيديا المختارة بعناية تُحسِّن الأداء بنسبة تزيد عن 5%.

استخدام تحريرات ويكيبيديا في تصحيح الأخطاء النحوية في الموارد المنخفضة | أحدث الأوراق البحثية | HyperAI