نماذج التعلم العميق للكشف عن الكلام الكريه متعدد اللغات

كشف كشف الكلام الكاره يُعدّ مشكلةً صعبة، حيث تتوفر معظم المجموعات البيانات المتاحة بلغة واحدة فقط: الإنجليزية. في هذه الورقة، نُجري تحليلًا واسع النطاق للكلام الكاره متعدد اللغات بلغاتٍ مختلفة تُمثّل 9 لغات من 16 مصدرًا متنوعًا. نلاحظ أن في البيئات ذات الموارد المحدودة، تُظهر النماذج البسيطة مثل تضمين LASER مع الانحدار اللوجستي أداءً أفضل، بينما تُظهر النماذج المستندة إلى BERT أداءً أفضل في البيئات ذات الموارد الغنية. وفي حالة التصنيف بدون تدريب مسبق (zero-shot)، تحقق لغات مثل الإيطالية والبرتغالية نتائج جيدة. يمكن استخدام الإطار المُقترح كحل فعّال للغات ذات الموارد المحدودة. كما يمكن لهذه النماذج أن تُشكّل أساسًا جيدًا لمهام مستقبلية لكشف الكلام الكاره متعدد اللغات. وقد قمنا بنشر كودنا وإعدادات التجربة للباحثين الآخرين على الرابط: https://github.com/punyajoy/DE-LIMIT.