اكتشاف خطاب الكراهية في الصور المتحركة باستخدام نماذج التعلم العميق متعددة الوسائط: الحل الفائز بجائزة تحدي الصور المتحركة الكارهة

الصور المتحركة (memes) على الإنترنت غالبًا ما تكون بريئة وأحيانًا مضحكة. ومع ذلك، من خلال استخدام أنواع معينة من الصور أو النصوص أو مزيج منهما، تصبح الصورة المتحركة الظاهرية البريئة نوعًا متعدد الوسائط من خطاب الكراهية -- صورة متحركة كارهة. تحدي الصور المتحركة الكارهة هو أول مسابقة من نوعها تركز على اكتشاف خطاب الكراهية في الصور المتحركة المتعددة الوسائط وتقترح مجموعة بيانات جديدة تحتوي على أكثر من 10,000 مثال جديد لمحتوى متعدد الوسائط. نحن نستخدم VisualBERT -- وهو المقصود به أن يكون BERT للرؤية واللغة -- الذي تم تدريبه بشكل متعدد الوسائط على الصور والتعليقات التوضيحية ونطبق تقنيات التعلم الجمعي (Ensemble Learning). يحقق نهجنا دقة قدرها 0.811 AUROC ودقة قدرها 0.765 في مجموعة اختبار التحدي، وقد حصلنا على المركز الثالث بين 3,173 مشاركًا في تحدي الصور المتحركة الكارهة.