HyperAIHyperAI
منذ 16 أيام

كشف اللغة الضارة في وسائل التواصل الاجتماعي للبرتغالية البرازيلية: مجموعة بيانات جديدة وتحليل متعدد اللغات

João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton
كشف اللغة الضارة في وسائل التواصل الاجتماعي للبرتغالية البرازيلية: مجموعة بيانات جديدة وتحليل متعدد اللغات
الملخص

تشكل التعليقات الكريهة والمضرة مصدر قلق شائع بين مستخدمي منصات التواصل الاجتماعي. وعلى الرغم من أن هذه التعليقات تشكل في الحقيقة أقلية في هذه المنصات، إلا أنها ما زالت قادرة على التسبب في أذى. وبالتالي، يُعد التعرف على هذه التعليقات مهمة أساسية لدراسة ومنع انتشار السُّمّ في وسائل التواصل الاجتماعي. ركّزت الدراسات السابقة في الكشف التلقائي عن التعليقات الضارة بشكل رئيسي على اللغة الإنجليزية، مع وجود عدد قليل جدًا من الدراسات في لغات مثل البرتغالية البرازيلية. في هذه الورقة، نقترح مجموعة بيانات كبيرة جديدة مخصصة للغة البرتغالية البرازيلية، تتضمن تغريدات تم تصنيفها على أنها ضارة أو غير ضارة، أو تصنيفها حسب أنواع مختلفة من السُّمّ. نقدم عملية جمع البيانات وعملية التصنيف، حيث سعينا إلى اختيار ممثليين يغطون مجموعات ديموغرافية متعددة. وقد حققت نماذج BERT الحديثة المتقدمة نتيجة بلغت 76% في مقياس F1 الماكرو عند استخدام بيانات ثنائية اللغة (باستخدام بيانات لغوية منفصلة فقط). كما نُظهر أن البيانات الكبيرة من اللغة الواحدة ما زالت مطلوبة لبناء نماذج أكثر دقة، بالرغم من التقدم الأخير في النماذج متعددة اللغات. وتشير تحليلات الأخطاء والتجارب التي أجريت على التصنيف متعدد العلامات إلى الصعوبة الكامنة في تصنيف أنواع معينة من التعليقات الضارة التي تظهر بشكل أقل تكرارًا في بياناتنا، مما يبرز الحاجة إلى تطوير نماذج تُدرك الفروقات بين فئات السُّمّ المختلفة.

كشف اللغة الضارة في وسائل التواصل الاجتماعي للبرتغالية البرازيلية: مجموعة بيانات جديدة وتحليل متعدد اللغات | أحدث الأوراق البحثية | HyperAI