LM-Critic: نماذج اللغة للتصحيح غير المراقب للخطأ النحوي

يتطلب تدريب نموذج لتصحيح الأخطاء النحوية (GEC) مجموعة من الأزواج المُعلَّمة من الجمل غير الصحيحة والصحيحة نحوياً، لكن تسمية هذه الأزواج يدويًا يمكن أن يكون مكلفًا. في الآونة الأخيرة، أظهر إطار العمل Break-It-Fix-It (BIFI) نتائج قوية في تعلُّم إصلاح برنامج معطوب دون الحاجة إلى أي أمثلة مُعلَّمة، لكن هذا الإطار يعتمد على "مُقيِّم مثالي" (مثل مُصدِّر التعليمات البرمجية) يُحدد ما إذا كانت المثال صحيحًا أم لا، وهو ما لا يوجد في مهمة GEC. في هذا العمل، نُظهِر كيف يمكن الاستفادة من نموذج لغوي مُدرَّب مسبقًا (LM) لتعريف ما يُسمى بـ LM-Critic، والذي يُقيِّم الجملة على أنها صحيحة نحوياً إذا كان النموذج اللغوي يُعطيها احتمالًا أعلى من تحويراتها المحلية. ونطبّق هذا LM-Critic مع إطار BIFI إلى جانب مجموعة كبيرة من الجمل غير المُعلَّمة، لتمكين توليد أزواج واقعية من الجمل غير الصحيحة والصحيحة نحوياً لتدريب نموذج تصحيح. ونقيّم منهجنا على مجموعات بيانات GEC عبر مجالات متعددة (CoNLL-2014، BEA-2019، GMEG-wiki، وGMEG-yahoo)، ونُظهر أنه يتفوّق على الطرق الحالية في البيئة غير المُعلَّمة (+7.7 نقطة في F0.5) وفي البيئة المُعلَّمة (+0.5 نقطة في F0.5).