HyperAIHyperAI
منذ 11 أيام

نحو إطار قوي للكشف عن الكراهية متعدد الوسائط: دراسة مقارنة بين المحتوى المرئي والصورة

Girish A. Koushik, Diptesh Kanojia, Helen Treharne
نحو إطار قوي للكشف عن الكراهية متعدد الوسائط: دراسة مقارنة بين المحتوى المرئي والصورة
الملخص

تمكّن منصات وسائل التواصل الاجتماعي من انتشار المحتوى الكاره عبر مختلف الوسائط، مثل النصي والصوتي والمرئي، مما يستدعي تطوير طرق فعّالة للكشف عنه. وعلى الرغم من أن النماذج الحديثة أظهرت نجاحًا في التعامل مع وسائط منفصلة، إلا أن فعاليتها عند دمج هذه الوسائط ما زالت غير مُستكشفة بشكل كافٍ. تقدّم هذه الورقة تحليلًا منهجيًا للنماذج القائمة على الدمج في الكشف عن الكراهية متعددة الوسائط، مع التركيز على أدائها في المحتوى القائم على الفيديو والصور. تُظهر تقييماتنا الشاملة قيودًا محددة حسب الوسائط: إذ تحقق طريقة الدمج البسيطة للتمثيلات (embedding fusion) أداءً يُعدّ الأفضل في فئة الفيديو (على مجموعة بيانات HateMM) بتحسن في دقة القياس F1 بنسبة 9.9%، لكنها تواجه صعوبة كبيرة في التعامل مع العلاقات المعقدة بين الصورة والنص في الميمات (على مجموعة بيانات Hateful Memes). من خلال دراسات إزالة التأثير التفصيلية وتحليل الأخطاء، نُظهر كيف تفشل النماذج الحالية في التقاط التفاعلات المعقدة بين الوسائط، خاصة في الحالات التي تشمل عوامل مضللة غير ضارة. تقدّم نتائجنا رؤى حاسمة لتطوير أنظمة كشف عن الكراهية أكثر متانة، وتشير إلى الحاجة إلى اعتبارات معمارية مخصصة لكل وسائط. يمكن الوصول إلى الكود عبر الرابط: https://github.com/gak97/Video-vs-Meme-Hate.

نحو إطار قوي للكشف عن الكراهية متعدد الوسائط: دراسة مقارنة بين المحتوى المرئي والصورة | أحدث الأوراق البحثية | HyperAI