HyperAIHyperAI
منذ 2 أشهر

تحسين تصحيح الأخطاء النحوية من خلال التدريب المسبق لهيكل مدعم بالنسخ باستخدام بيانات غير مصنفة

Wei Zhao; Liang Wang; Kewei Shen; Ruoyu Jia; Jingming Liu
تحسين تصحيح الأخطاء النحوية من خلال التدريب المسبق لهيكل مدعم بالنسخ باستخدام بيانات غير مصنفة
الملخص

أصبحت أنظمة الترجمة الآلية العصبية طرقًا رائدة لتصحيح الأخطاء النحوية (GEC). في هذا البحث، نقترح هندسة معمارية معززة بالنسخ لمهام تصحيح الأخطاء النحوية من خلال نسخ الكلمات غير المتغيرة من الجملة المصدر إلى الجملة الهدف. حيث تعاني مهمة تصحيح الأخطاء النحوية من عدم وجود بيانات تدريبية مصنفة كافية لتحقيق دقة عالية. لذلك، قمنا بتدريب المعمارية المعززة بالنسخ بشكل مسبق باستخدام مكودِّر ذاتي مُنظف (denoising auto-encoder) على مجموعة البيانات غير المصنفة "مليار كلمة" (One Billion Benchmark)، وقمنا بمقارنة النموذج الذي تم تدريبه بشكل كامل مع نموذج تم تدريبه جزئيًا. هذه هي المرة الأولى التي يتم فيها تجربة نسخ الكلمات من السياق المصدر وتدريب نموذج التسلسل إلى التسلسل بشكل كامل على مهمة تصحيح الأخطاء النحوية. بالإضافة إلى ذلك، أضفنا التعلم متعدد المهام على مستوى الرمز وعلى مستوى الجملة لمهمة تصحيح الأخطاء النحوية. أظهرت نتائج التقييم على مجموعة اختبار CoNLL-2014 أن نهجنا يتفوق بكثير على جميع النتائج الرائدة التي تم نشرها مؤخرًا. تم إصدار الكود والنموذج المدرب مسبقًا على الرابط https://github.com/zhawe01/fairseq-gec.

تحسين تصحيح الأخطاء النحوية من خلال التدريب المسبق لهيكل مدعم بالنسخ باستخدام بيانات غير مصنفة | أحدث الأوراق البحثية | HyperAI