HyperAIHyperAI

Command Palette

Search for a command to run...

التدريب الذاتي الضوضائي مع تعزيز البيانات للمهام المتعلقة كشف الكلام العدائي والكراهية

João A. Leite Carolina Scarton Diego F. Silva

الملخص

تُعاني وسائل التواصل الاجتماعي عبر الإنترنت من كثرة التعليقات المهينة والكراهية، مما يُبرز الحاجة إلى اكتشافها تلقائيًا نظرًا للحجم الهائل من المشاركات التي تُنشَأ كل ثانية. يُعد إنشاء مجموعات بيانات مُصنَّفة يدويًا عالية الجودة لهذه المهمة أمرًا صعبًا ومرتَّب التكلفة، خاصةً لأن المشاركات غير المهينة تفوق بكثير عدد المشاركات المهينة من حيث التكرار. ومع ذلك، فإن البيانات غير المصنَّفة متاحة بكثرة، وأسهل وأرخص في الحصول عليها. في هذا السياق، يمكن استخدام طرق التدريب الذاتي التي تعتمد على أمثلة مصنَّفة بشكل ضعيف لزيادة كمية بيانات التدريب. وتُدمج الطرق الحديثة للتدريب الذاتي "المشوَّشة" تقنيات تكبير البيانات (data augmentation) لضمان اتساق التنبؤات وزيادة المقاومة تجاه البيانات المشوَّشة والهجمات المعاكسة. في هذه الورقة، نختبر طريقة التدريب الذاتي الافتراضية والطريقة المشوَّشة باستخدام ثلاث تقنيات مختلفة لتكبير النصوص، عبر خمسة نماذج مُدرَّبة مسبقًا من نوع BERT تتباين في الحجم. ونقيّم تجاربنا على مجموعتي بيانات للكراهية والكلام العدائي، ونُظهر أن (أ) يُحسِّن التدريب الذاتي الأداء باستمرار بغض النظر عن حجم النموذج، ما يؤدي إلى تحسين بنسبة تصل إلى +1.5% في معامل F1-الماكرو على كلا المجموعتين، و(ب) يُقلِّل التدريب الذاتي المشوَّش مع تكبير البيانات النصية من الأداء في مجالات الكراهية والكلام العدائي مقارنةً بالطريقة الافتراضية، حتى عند استخدام تقنيات تكبير متطورة مثل الترجمة العكسية (backtranslation).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp