منذ 2 أشهر

اكتشاف اللغة المسيئة والكلام الكراهية للدانماركية

Gudbjartur Ingi Sigurbergsson; Leon Derczynski

الملخص

تُعدّ وجود اللغة المسيئة على منصات التواصل الاجتماعي وما يترتب على ذلك من آثار مصدر قلق رئيسي في المجتمع الحديث. نظرًا لكمية المحتوى الهائلة التي يتم إنشاؤها يوميًا، فإن الطرق الآلية مطلوبة للكشف عن هذا النوع من المحتوى ومعالجته. حتى الآن، ركز معظم الأبحاث على حل المشكلة للغة الإنجليزية، بينما تعد المشكلة متعددة اللغات.قمنا ببناء مجموعة بيانات دنماركية تحتوي على تعليقات تم توليدها من قبل المستخدمين من \textit{Reddit} و\textit{Facebook}. تتضمن هذه المجموعة بيانات التعليقات التي تم توليدها من قبل المستخدمين من مختلف منصات التواصل الاجتماعي، ووفقًا لعلمنا، فهي الأولى من نوعها. تم تصنيف مجموعة البيانات لدينا للكشف عن أنواع مختلفة وأهداف اللغة المسيئة. طورنا أربعة أنظمة تصنيف آلية، كل منها مصمم للعمل باللغتين الإنجليزية والدنماركية. في الكشف عن اللغة المسيئة باللغة الإنجليزية، حقق النظام الأفضل أداءً درجة F1 متوسطة بمقدار $0.74$، بينما حقق النظام الأفضل أداءً باللغة الدنماركية درجة F1 متوسطة بمقدار $0.70$. بالنسبة للكشف عما إذا كان النشر المسيء مستهدفًا أم لا، حقق النظام الأفضل أداءً باللغة الإنجليزية درجة F1 متوسطة بمقدار $0.62$، بينما حقق النظام الأفضل أداءً باللغة الدنماركية درجة F1 متوسطة بمقدار $0.73$. وأخيرًا، في الكشف عن نوع الهدف في النشر المسيء المستهدف، حقق النظام الأفضل أداءً باللغة الإنجليزية درجة F1 متوسطة بمقدار $0.56$، بينما حقق النظام الأفضل أداءً باللغة الدنماركية درجة F1 متوسطة بمقدار $0.63$.تعكس أعمالنا لكلٍّ من اللغتين الإنجليزية والدنماركية أنواع وأهداف اللغة المسيئة وتقدم طرقًا آلية لكشف أنواع مختلفة من اللغة المسيئة مثل خطاب الكراهية والتنمر الإلكتروني (cyberbullying).