كشف التحريض على الكراهية باستخدام تضمينات BERT الثابتة

مع ازدياد شعبية منصات وسائل التواصل الاجتماعي، أصبح الخطاب الكاره ظاهرة تُعدّ من القضايا المُهمّة، حيث يعبّر عن تعبيرات مُسيئة تستهدف خصائص محددة للمجموعات، مثل الجنس، أو الدين، أو الأصل العرقي، بهدف نشر العنف. في الماضي، كان الناس يُوجّهون خطابات الكراهية شفهيًا، لكن مع توسّع التكنولوجيا، أصبح بعض الأشخاص يُستخدمون بشكل متعمّد منصات وسائل التواصل الاجتماعي لنشر الكراهية من خلال النشر، والمشاركة، والتعليق، وغيرها. سواء كان ذلك في حادثة إطلاق النار في مسجدي كرايستشيرش، أو الجرائم الكراهية الموجهة ضد الأشخاص الآسيويين في الغرب، فقد لوحظ أن المُدانين كانوا متأثرين بشدة بالنصوص الكارهة المتداولة عبر الإنترنت. وعلى الرغم من وجود أنظمة ذكاء اصطناعي لتحديد هذه النصوص، إلا أن أحد التحديات الرئيسية يكمن في تقليل معدل الإشارات الخاطئة الإيجابية (أي تصنيف النصوص غير الكارهة على أنها كارهة)، بحيث يمكن لهذه الأنظمة اكتشاف خطاب الكراهية دون المساس بحرية التعبير. في هذه الورقة، نستخدم مجموعة بيانات كشف خطاب الكراهية ETHOS، ونحلّل أداء فئة كشف خطاب الكراهية من خلال استبدال أو دمج مُدمجات الكلمات (fastText (FT)، GloVe (GV) أو FT + GV) بـ مُدمجات BERT الثابتة (BE). ومن خلال التجارب الموسعة، لاحظنا أن الشبكة العصبية أظهرت أداءً أفضل باستخدام مُدمجات BE الثابتة مقارنةً باستخدام FT أو GV أو FT + GV كمُدمجات كلمات. وبالمقارنة مع BERT المُعدّل (fine-tuned)، فقد سجّلت إحدى المقاييس تحسّنًا ملحوظًا، وهي دقة التمييز (specificity).