Hate-CLIPper: تصنيف الرموز الكراهية متعددة الوسائط على أساس التفاعل بين وسائط ميزات CLIP

الصور الكاريكатурية المليئة بالبغضاء هي تهديد متزايد على وسائل التواصل الاجتماعي. بينما تكون الصورة ونصها المرتبط بها في الصورة الكاريكاتورية مرتبطين، إلا أنهما لا ينقلان بالضرورة نفس المعنى عند النظر إليهما بشكل منفصل. لذلك، يتطلب اكتشاف الصور الكاريكاتورية المليئة بالبغضاء مراعاة دقيقة للمعلومات البصرية والنصية. يمكن أن يكون التدريب المتعدد الأوضاع مفيدًا لهذه المهمة لأنه يلتقط بفعالية العلاقة بين الصورة والنص من خلال تمثيلهما في فضاء خصائص مشابه. بالإضافة إلى ذلك، من الضروري نمذجة التفاعلات بين خصائص الصورة والنص من خلال الاندماج الوسيط. تعتمد معظم الطرق الحالية إما التدريب المتعدد الأوضاع أو الاندماج الوسيط، ولكن ليس كلاهما معًا. في هذا البحث، نقترح هندسة Hate-CLIPper التي تنمذج التفاعلات العابرة للأوضاع بين تمثيلات الصورة والنص التي يتم الحصول عليها باستخدام مُشفِّرات التعلم المقارن للغة والصورة (Contrastive Language-Image Pre-training - CLIP) عبر مصفوفة تفاعل الخصائص (Feature Interaction Matrix - FIM). يمكن لتصنيف بسيط يستند إلى تمثيل FIM تحقيق أداء رائد على مجموعة بيانات تحدي الصور الكاريكاتورية المليئة بالبغضاء (Hateful Memes Challenge - HMC) بمعدل AUROC يبلغ 85.8، مما يتجاوز حتى الأداء البشري الذي يصل إلى 82.65. كما تظهر التجارب على مجموعات بيانات صور كاريكاتورية أخرى مثل Propaganda Memes و TamilMemes قابلية تعميم النهج المقترح. أخيرًا، نحلل قابلية فهم تمثيل FIM ونثبت أن التفاعلات العابرة للأوضاع يمكن أن تسهل بالفعل تعلم المفاهيم ذات المعنى. الرمز البرمجي لهذا العمل متاح على الرابط https://github.com/gokulkarthik/hateclipper.