HyperAIHyperAI
منذ 11 أيام

التدريب الذاتي الضوضائي مع تعزيز البيانات للمهام المتعلقة كشف الكلام العدائي والكراهية

João A. Leite, Carolina Scarton, Diego F. Silva
التدريب الذاتي الضوضائي مع تعزيز البيانات للمهام المتعلقة كشف الكلام العدائي والكراهية
الملخص

تُعاني وسائل التواصل الاجتماعي عبر الإنترنت من كثرة التعليقات المهينة والكراهية، مما يُبرز الحاجة إلى اكتشافها تلقائيًا نظرًا للحجم الهائل من المشاركات التي تُنشَأ كل ثانية. يُعد إنشاء مجموعات بيانات مُصنَّفة يدويًا عالية الجودة لهذه المهمة أمرًا صعبًا ومرتَّب التكلفة، خاصةً لأن المشاركات غير المهينة تفوق بكثير عدد المشاركات المهينة من حيث التكرار. ومع ذلك، فإن البيانات غير المصنَّفة متاحة بكثرة، وأسهل وأرخص في الحصول عليها. في هذا السياق، يمكن استخدام طرق التدريب الذاتي التي تعتمد على أمثلة مصنَّفة بشكل ضعيف لزيادة كمية بيانات التدريب. وتُدمج الطرق الحديثة للتدريب الذاتي "المشوَّشة" تقنيات تكبير البيانات (data augmentation) لضمان اتساق التنبؤات وزيادة المقاومة تجاه البيانات المشوَّشة والهجمات المعاكسة. في هذه الورقة، نختبر طريقة التدريب الذاتي الافتراضية والطريقة المشوَّشة باستخدام ثلاث تقنيات مختلفة لتكبير النصوص، عبر خمسة نماذج مُدرَّبة مسبقًا من نوع BERT تتباين في الحجم. ونقيّم تجاربنا على مجموعتي بيانات للكراهية والكلام العدائي، ونُظهر أن (أ) يُحسِّن التدريب الذاتي الأداء باستمرار بغض النظر عن حجم النموذج، ما يؤدي إلى تحسين بنسبة تصل إلى +1.5% في معامل F1-الماكرو على كلا المجموعتين، و(ب) يُقلِّل التدريب الذاتي المشوَّش مع تكبير البيانات النصية من الأداء في مجالات الكراهية والكلام العدائي مقارنةً بالطريقة الافتراضية، حتى عند استخدام تقنيات تكبير متطورة مثل الترجمة العكسية (backtranslation).

التدريب الذاتي الضوضائي مع تعزيز البيانات للمهام المتعلقة كشف الكلام العدائي والكراهية | أحدث الأوراق البحثية | HyperAI