تجميع النماذج والتفريغ المعرفي للمرشحات التسلسلية الكبيرة لتصحيح الأخطاء النحوية

في هذه الورقة، نستعرض تحسينات معمّقة على معمارية التصنيف التسلسلي لتصحيح اللغة الجامدة (GEC)، مع التركيز على دمج نماذج مُشفّرة حديثة مبنية على معمارية Transformer في تكوينات كبيرة. ونُشجّع دمج النماذج من خلال التصويت الأغلبي على مستوى الفترات (span-level edits)، نظرًا لأن هذا النهج يتميّز بالقدرة على التحمل تجاه الاختلافات في هيكل النموذج وحجم القاموس. حقق أفضل تجميع لدينا نتيجة جديدة من نوعها (SOTA) بتحقيق score $F_{0.5}$ قدره 76.05 على مجموعة BEA-2019 (الاختبار)، حتى دون التدريب المسبق على مجموعات بيانات اصطناعية. بالإضافة إلى ذلك، نُجري عملية نقل المعرفة (knowledge distillation) باستخدام التجميع المُدرّب لإنشاء مجموعات بيانات تدريب اصطناعية جديدة، تُسمّى "Troy-Blogs" و"Troy-1BW". وحقق أفضل نموذج فردي للتصنيف التسلسلي، الذي تم تدريبه مسبقًا على البيانات الاصطناعية المُولّدة من Troy، بالجمع مع مجموعة البيانات الاصطناعية المُتاحة علنًا (PIE)، نتيجة قريبة جدًا من مستوى SOTA (ووفقًا لمعرفتنا، فإن أفضل نموذج فردي لدينا يتفوّق فقط على نتائج نموذج T5 الأثقل، حيث حقق score $F_{0.5}$ قدره 73.21 على BEA-2019 (الاختبار)). إن الكود، والبيانات، والأنماط المُدرّبة متوفرة للجمهور بشكل مفتوح.