منذ 11 أيام
تحدي الصور الكارهة: كشف الخطاب الكاره في الصور المتعددة الوسائط
Douwe Kiela, Hamed Firooz, Aravind Mohan, Vedanuj Goswami, Amanpreet Singh, Pratik Ringshia, Davide Testuggine

الملخص
تقترح هذه الدراسة مجموعة تحدٍ جديدة للتصنيف متعدد الوسائط، مع التركيز على اكتشاف الكلام الكاره في الصور الرمزية متعددة الوسائط. تم بناء هذه المجموعة بحيث تواجه النماذج أحادية الوسائط صعوبة كبيرة، بينما يمكن للنماذج متعددة الوسائط النجاح فقط: حيث تم إضافة أمثلة صعبة (تسمى "مُربِّكات غير ضارة") إلى المجموعة لجعل الاعتماد على الإشارات الأحادية الوسائط أمرًا شبه مستحيل. تتطلب المهمة تفكيرًا دقيقًا، ولكنها سهلة التقييم كمشكلة تصنيف ثنائي. نقدم أرقام الأداء الأساسية للنماذج أحادية الوسائط، وكذلك للنماذج متعددة الوسائط بدرجات متفاوتة من التعقيد. ونجد أن النماذج الرائدة في المجال تؤدي بشكل ضعيف مقارنة بالإنسان (دقة 64.73% مقابل 84.7%)، مما يُظهر مدى صعوبة المهمة ويُبرز التحدي الكبير الذي تطرحه هذه المشكلة الهامة على المجتمع البحثي.