علي إدالات في مسابقة SemEval-2022 المهمة 4: كشف اللغة التفوقية والتفوّهية باستخدام نماذج لغوية مُعدّلة الدقة، BERT+BiGRU، ونماذج مجمّعة

تقدم هذه الورقة منهجية ونتائج فريق علي إدالات في مُهمة SemEval-2022 المُنْتَظَرَة: كشف اللغة المُتَّسِمة والمستَهينة (PCL). تهدف هذه المهمة إلى الكشف عن وجود اللغة المُتَّسِمة والمستَهينة (PCL) وفئاتها في النصوص، وذلك لمنع التمييز الإضافي ضد المجتمعات الضعيفة. استخدمنا تجميعًا لثلاثة نماذج أساسية للكشف عن وجود PCL: BigBird المُعدّل، MPNet المُعدّل، ونموذج BERT+BiGRU. أدى النموذج المُجمّع إلى أداء أضعف من النموذج الأساسي بسبب التعلّم الزائد (Overfitting)، وحقق معدّل F1 قدره 0.3031. ونقدّم حلًا بديلًا لمعالجة مشكلة النموذج المُقدّم. نأخذ في الاعتبار فئات PCL المختلفة بشكل منفصل. للكشف عن كل فئة من فئات PCL، نتصرف كمُكتشف لـ PCL. بدلًا من استخدام نموذج BERT+BiGRU، نستخدم نموذج RoBERTa المُعدّل في النماذج. وفي كشف فئات PCL، تفوق نموذجنا على النموذج الأساسي، وحقق معدّل F1 قدره 0.2531. كما نقدّم نماذج جديدة للكشف عن فئتين من فئات PCL، تفوقت على النماذج المُقدّمة.