تحسين اكتشاف الرموز الكارهة من خلال التعلم التبايني الموجه بالاسترجاع

الصور الكاريكاتيرية المليئة بالبغضاء أصبحت مصدر قلق كبير على الإنترنت.لكشف الصور الكاريكاتيرية البغيضة يتطلب الأمر من النظام فهمًا مشتركًا للعناصر المرئية والنصية.تكشف دراستنا أن فضاء التضمين (embedding space) للأنظمة القائمة على CLIP يفتقر إلى الحساسية تجاه الفروقات الدقيقة في الصور الكاريكاتيرية التي تعتبر ضرورية لتصنيف البغضاء بشكل صحيح. نقترح بناء فضاء تضمين واعٍ بالبغضاء من خلال التدريب التبايني بقيادة الاسترجاع (retrieval-guided contrastive training). يحقق نهجنا أداءً رائدًا على مجموعة بيانات HatefulMemes بمعدل AUROC يبلغ 87.0، مما يتفوق على النماذج المتعددة الوسائط الأكبر حجمًا والمعدلة بدقة. نقدم نظام كشف الصور الكاريكاتيرية البغيضة القائم على الاسترجاع، والذي يمكنه تحديد البغضاء استنادًا إلى بيانات لم يتم رؤيتها أثناء التدريب. هذا يسمح للمطورين بتحديث نظام كشف الصور الكاريكاتيرية البغيضة بإضافة أمثلة جديدة فقط دون الحاجة لإعادة التدريب، وهو ميزة مرغوبة للخدمات الحقيقية في المناظر المتغيرة باستمرار للصور الكاريكاتيرية البغيضة على الإنترنت.