HateBERT: إعادة تدريب BERT للكشف عن اللغة المسيئة في اللغة الإنجليزية

في هذه الورقة، نقدم نموذج HateBERT، وهو نموذج BERT معاد تدريبه للكشف عن اللغة المسيئة باللغة الإنجليزية. تم تدريب النموذج على مجموعة بيانات كبيرة تُسمى RAL-E، والتي تتضمن تعليقات من منصّة Reddit باللغة الإنجليزية من مجتمعات تم حظرها بسبب تصرفاتها المسيئة أو المهينة أو العدوانية، وقد جمعنا هذه المجموعة وقمنا بتوافرها للجمهور. نعرض نتائج مقارنة مفصلة بين نموذج لغوي مُدرّب مسبقًا عامًا ونسخة مُعدّة إعادة تدريبها لتمييز اللغة المسيئة، باستخدام منشورات من المجتمعات المحظورة، على ثلاث مجموعات بيانات إنجليزية مخصصة لمهام الكشف عن اللغة المهينة، واللغة المسيئة، وخطاب الكراهية. وفي جميع المجموعات، يتفوّق HateBERT على النموذج العام المُدرّب مسبقًا من نوع BERT. كما نناقش مجموعة من التجارب التي تقارن قابلية نقل النموذج العام المُدرّب مسبقًا مع نسخة مُعدّة للكشف عن اللغة المسيئة عبر المجموعات المختلفة، مما يشير إلى أن قابلية النقل تتأثر بتوافق الظواهر المُعلّمة.