HateMM: مجموعة بيانات متعددة الوسائط لتصنيف مقاطع الفيديو الكارهة

أصبح خطاب الكراهية أحد أكثر القضايا أهمية في المجتمع الحديث، حيث يمتلك تأثيرات كبيرة في العالم الرقمي والواقعي على حد سواء. وبسبب ذلك، اكتسبت أبحاث خطاب الكراهية حظًا واسعًا في الآونة الأخيرة. ومع ذلك، ركزت معظم الدراسات بشكل أساسي على الوسائط النصية، مع وجود كمية محدودة جدًا من الأبحاث المخصصة للصور، وأقل من ذلك بكثير في مجال الفيديوهات. وبالتالي، هناك حاجة ملحة إلى تقنيات تصفية تلقائية مبكرة للفيديوهات لمعالجة الفيديوهات التي تُرفع على المنصات، بهدف الحفاظ على بيئة آمنة وصحية. ولتحقيق هدف الكشف عن المحتوى الكاره وحذفه من منصات مشاركة الفيديوهات، تركز دراستنا على الكشف عن الفيديوهات الكارهة باستخدام النماذج متعددة الوسائط. ولذلك، قمنا بجمع ما يقارب 43 ساعة من الفيديوهات من منصة BitChute، وقمّنا بتصنيفها يدويًا على أنها "كارهة" أو "غير كارهة"، مع تحديد الفواصل الزمنية للإطارات التي تفسر قرار التصنيف. ولجمع الفيديوهات ذات الصلة، استخدمنا كلمات مفتاحية مستمدة من قوائم كلمات الكراهية (Hate Lexicons). لاحظنا وجود العديد من المؤشرات في الصور والصوت الخاصة بفيديوهات الكراهية. علاوة على ذلك، قمنا ببناء نماذج عميقة تعتمد على التعلم العميق متعددة الوسائط لتصنيف الفيديوهات الكارهة، ولاحظنا أن استخدام جميع وسائط الفيديو معًا يحسن أداء الكشف عن خطاب الكراهية بشكل عام (دقة = 0.798، متوسط F1 = 0.790) بنسبة تصل إلى 5.7٪ مقارنةً بأفضل نموذج أحادي الوسائط من حيث متوسط F1. باختصار، تمثل هذه الدراسة الخطوة الأولى نحو فهم ونمذجة الفيديوهات الكارهة على منصات استضافة الفيديوهات مثل BitChute.