HyperAIHyperAI

Command Palette

Search for a command to run...

برو-كاب: الاستفادة من نموذج رؤية ولغة متجمد للكشف عن الصور الساخرة الكارهة

Rui Cao Ming Shan Hee Adriel Kuek Wen-Haw Chong Roy Ka-Wei Lee Jing Jiang

الملخص

كشف الميمات الكارهة هو مهمة متعددة الوسائط صعبة تتطلب فهمًا للرؤية واللغة، فضلًا عن التفاعلات بين الوسائط المختلفة. حاولت الدراسات الحديثة تحسين نماذج الرؤية واللغة المُدرَّبة مسبقًا (PVLMs) لهذا الغرض. ومع تزايد حجم النماذج، أصبح من الضروري الاستفادة من النماذج القوية لـ PVLMs بشكل أكثر كفاءة، بدلاً من الاعتماد فقط على التحسين الدقيق (fine-tuning) لها. في الآونة الأخيرة، حاول الباحثون تحويل صور الميمات إلى وصفات نصية (captions) وتقديمها كمدخلات لنموذج لغوي للتنبؤ بالنتائج. وقد أظهر هذا النهج أداءً جيدًا، لكنه يعاني من وصفات صور غير مفيدة من حيث المعلومات. مع مراعاة العاملين المذكورين أعلاه، نقترح منهجية مبنية على الاستقصاء (probing-based captioning) لاستغلال نماذج PVLMs بطريقة تُشبه الإجابة على أسئلة مرئية (VQA) بدون تدريب مسبق (zero-shot). وبشكل محدد، نُوجِّه نموذج PVLM المُجمَّد من خلال طرح أسئلة مرتبطة بمحتوى الكراهية، ونستخدم الإجابات كوصف للصورة (نُسميه Pro-Cap)، بحيث تتضمن هذه الوصفات معلومات حاسمة للكشف عن المحتوى الكاره. ويُثبت الأداء الجيد للنماذج المستخدمة مع Pro-Cap على ثلاث معايير (benchmarks) فعالية وقابلية التعميم للمنهج المقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
برو-كاب: الاستفادة من نموذج رؤية ولغة متجمد للكشف عن الصور الساخرة الكارهة | مستندات | HyperAI