منذ 11 أيام
تصحيح الأخطاء النحوية في السيناريوهات ذات الموارد المنخفضة
Jakub Náplava, Milan Straka

الملخص
تصحيح الأخطاء النحوية باللغة الإنجليزية يُعد مشكلة تم دراستها منذ فترة طويلة، مع وجود العديد من الأنظمة والمستندات المتاحة. ومع ذلك، كان هناك بحث محدود نسبيًا حول تصحيح الأخطاء في لغات أخرى. في هذه الورقة، نقدّم مجموعة بيانات جديدة تُسمى AKCES-GEC لتصحيح الأخطاء النحوية للغة التشيكية. ثم نُجري تجارب على اللغات التشيكية والألمانية والروسية، ونُظهر أن استخدام مجموعة بيانات متزامنة مُصَنَّعة يُمكن النموذج العصبي لترجمة الآلات (Transformer) من تحقيق نتائج جديدة في مستوى الأداء الأفضل (state-of-the-art) على هذه المجموعات. تم نشر AKCES-GEC تحت رخصة CC BY-NC-SA 4.0 على الرابط التالي: https://hdl.handle.net/1-3057، بينما تكون كود المصدر الخاص بنموذج GEC متاحًا على GitHub عبر الرابط: https://github.com/ufal/low-resource-gec-wnut2019.