HyperAIHyperAI
منذ 16 أيام

برو-كاب: الاستفادة من نموذج رؤية ولغة متجمد للكشف عن الصور الساخرة الكارهة

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee, Jing Jiang
برو-كاب: الاستفادة من نموذج رؤية ولغة متجمد للكشف عن الصور الساخرة الكارهة
الملخص

كشف الميمات الكارهة هو مهمة متعددة الوسائط صعبة تتطلب فهمًا للرؤية واللغة، فضلًا عن التفاعلات بين الوسائط المختلفة. حاولت الدراسات الحديثة تحسين نماذج الرؤية واللغة المُدرَّبة مسبقًا (PVLMs) لهذا الغرض. ومع تزايد حجم النماذج، أصبح من الضروري الاستفادة من النماذج القوية لـ PVLMs بشكل أكثر كفاءة، بدلاً من الاعتماد فقط على التحسين الدقيق (fine-tuning) لها. في الآونة الأخيرة، حاول الباحثون تحويل صور الميمات إلى وصفات نصية (captions) وتقديمها كمدخلات لنموذج لغوي للتنبؤ بالنتائج. وقد أظهر هذا النهج أداءً جيدًا، لكنه يعاني من وصفات صور غير مفيدة من حيث المعلومات. مع مراعاة العاملين المذكورين أعلاه، نقترح منهجية مبنية على الاستقصاء (probing-based captioning) لاستغلال نماذج PVLMs بطريقة تُشبه الإجابة على أسئلة مرئية (VQA) بدون تدريب مسبق (zero-shot). وبشكل محدد، نُوجِّه نموذج PVLM المُجمَّد من خلال طرح أسئلة مرتبطة بمحتوى الكراهية، ونستخدم الإجابات كوصف للصورة (نُسميه Pro-Cap)، بحيث تتضمن هذه الوصفات معلومات حاسمة للكشف عن المحتوى الكاره. ويُثبت الأداء الجيد للنماذج المستخدمة مع Pro-Cap على ثلاث معايير (benchmarks) فعالية وقابلية التعميم للمنهج المقترح.

برو-كاب: الاستفادة من نموذج رؤية ولغة متجمد للكشف عن الصور الساخرة الكارهة | أحدث الأوراق البحثية | HyperAI