MemeCLIP: الاستفادة من تمثيلات CLIP لتصنيف الملصقات متعددة الوسائط

تعتبر صور النص المدمجة تحديًا معقدًا في مجال التعلم الآلي نظرًا لحاجة فهم متعدد الأوضاع للجوانب المتعددة للتعبير التي تنقلها هذه الصور. بينما ركزت البحوث السابقة في التحليل متعدد الأوضاع بشكل أساسي على جوانب محددة مثل خطاب الكراهية وفروعه، يوسع هذا البحث هذا التركيز ليشمل جوانب لغوية متعددة: الكراهية، أهداف الكراهية، الموقف، والفكاهة. نقدم مجموعة بيانات جديدة تُسمى PrideMM تتضمن 5,063 صورة مدمجة بالنص مرتبطة بحركة فخر LGBTQ+، مما يعالج ثغرة جادة في المصادر الحالية. نقوم بإجراء تجارب واسعة النطاق على مجموعة البيانات PrideMM باستخدام طرق أساسية أحادية الوضع ومتعددة الأوضاع لتأسيس مقاييس لكل مهمة. بالإضافة إلى ذلك، نقترح إطار عمل جديد يُسمى MemeCLIP لتحقيق تعلم فعال في المهام اللاحقة مع الحفاظ على معرفة النموذج المدرب مسبقًا CLIP. تظهر نتائج تجاربنا أن MemeCLIP حققت أداءً أفضل مقارنة بالإطارات المقترحة سابقًا على مجموعتين من البيانات الحقيقية. نقوم أيضًا بمقارنة أداء MemeCLIP مع GPT-4 بدون تعليمات (zero-shot) في مهمة تصنيف الكراهية. وفي النهاية، نناقش نقاط ضعف نموذجنا من خلال تحليل كمي لعينات التصنيف الخاطئ. الرمز البرمجي ومجموعة البيانات متاحان للعامة على الرابط التالي: https://github.com/SiddhantBikram/MemeCLIP.