HyperAIHyperAI
منذ 11 أيام

دراسة مقارنة للنماذج المدربة على بيانات مُصَنَّعة لتصحيح الأخطاء النحوية في اللغة الأوكرانية

{Andrii Fedorych, Andrii Shportko, Artem Yushko, Maksym Bondarenko}
دراسة مقارنة للنماذج المدربة على بيانات مُصَنَّعة لتصحيح الأخطاء النحوية في اللغة الأوكرانية
الملخص

تم دراسة مهمة تصحيح الأخطاء النحوية (GEC) بشكل واسع للغة الإنجليزية. ومع ذلك، تظل تطبيقاتها على اللغات ذات الموارد المحدودة، مثل اللغة الأوكرانية، تحديًا مفتوحًا. في هذا البحث، نطور نماذج تصنيف التسلسل ونماذج الترجمة الآلية العصبية للغة الأوكرانية، بالإضافة إلى مجموعة من قواعد التصحيح الخوارزمية لتعزيز هذه الأنظمة. كما نطور تقنيات لإنشاء بيانات اصطناعية للغة الأوكرانية لإنتاج أخطاء ذات جودة عالية تشبه الأخطاء البشرية. وأخيرًا، نحدد أفضل تركيبة من البيانات المولدة اصطناعيًا لتعزيز مجموعة بيانات UA-GEC الحالية، مما يُحقق نتائج رائدة في المجال بتحصيل درجة F0.5 تبلغ 0.663 على معيار UA-GEC الجديد الذي تم إنشاؤه حديثًا. سيتم إتاحة الكود والنماذج المدربة للجمهور عبر منصتي GitHub وHuggingFace.

دراسة مقارنة للنماذج المدربة على بيانات مُصَنَّعة لتصحيح الأخطاء النحوية في اللغة الأوكرانية | أحدث الأوراق البحثية | HyperAI