IRFL: التعرف على الصور للغة المجازية

الصيغ البلاغية مثل الاستعارات والتماثيل والتعابير المُتَعَبِّرة جزء لا يتجزأ من التواصل البشري. وهي شائعة في العديد من أشكال الخطاب، مما يمكّن الناس من نقل الأفكار المعقدة والمجردة وتأدية المشاعر. وبما أن الصيغ البلاغية غالبًا ما تُنقل عبر وسائط متعددة (مثل النص والصور معًا)، فإن فهم اللغة البلاغية متعددة الوسائط يُعدّ تحديًا مهمًا للذكاء الاصطناعي، حيث يتطلب دمجًا عميقًا للمعرفة البصرية، والمعرفة اللغوية، والمعرفة المشتركة، والمعارف الثقافية. في هذا العمل، نُطور مجموعة بيانات تُسمى "تمييز الصيغ البلاغية في الصور" (IRFL). نستفيد من التصنيف البشري ونظام تلقائي قمنا بتطويره لإنشاء مجموعة بيانات متعددة الوسائط، ونُقدّم مهامًا جديدة ومبتكرة كمعيار مرجعي لفهم اللغة البلاغية متعددة الوسائط. قمنا باختبار نماذج الرؤية واللغة المتطورة حديثًا، ووجدنا أن أفضل نموذج حقق أداءً بنسبة 22% فقط، وهو أداء يتفوق بكثير على الأداء البشري الذي بلغ 97%. نُطلق مجموعة البيانات، والمعيار، والكود، في محاولة لدفع تطوير نماذج قادرة على فهم أفضل للغة البلاغية.