الملخص

تقترح هذه الدراسة مجموعة تحدٍ جديدة للتصنيف متعدد الوسائط، مع التركيز على اكتشاف الكلام الكاره في الصور الرمزية متعددة الوسائط. تم بناء هذه المجموعة بحيث تواجه النماذج أحادية الوسائط صعوبة كبيرة، بينما يمكن للنماذج متعددة الوسائط النجاح فقط: حيث تم إضافة أمثلة صعبة (تسمى "مُربِّكات غير ضارة") إلى المجموعة لجعل الاعتماد على الإشارات الأحادية الوسائط أمرًا شبه مستحيل. تتطلب المهمة تفكيرًا دقيقًا، ولكنها سهلة التقييم كمشكلة تصنيف ثنائي. نقدم أرقام الأداء الأساسية للنماذج أحادية الوسائط، وكذلك للنماذج متعددة الوسائط بدرجات متفاوتة من التعقيد. ونجد أن النماذج الرائدة في المجال تؤدي بشكل ضعيف مقارنة بالإنسان (دقة 64.73% مقابل 84.7%)، مما يُظهر مدى صعوبة المهمة ويُبرز التحدي الكبير الذي تطرحه هذه المشكلة الهامة على المجتمع البحثي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار