ريبوس: معيار تقييم متين لفهم الرموز

نُقدّم معيارًا جديدًا لتقييم أداء النماذج الكبيرة متعددة الوسائط من لغة التوسع على ألغاز الرموز الصورية (الرِّيْبُس). يشمل المجموعة البيانات 333 مثالًا أصليًا من الألغاز القائمة على الصور، والتي تُلمّح إلى 13 فئة مختلفة، مثل الأفلام، والملحنين، والمدن الكبرى، والأطعمة. ولتحقيق أداء جيد في هذا المعيار، والذي يعتمد على تحديد الكلمة أو العبارة المُرَمَّزة، يجب على النماذج دمج التعرف على الصور مع معالجة السلسلة النصية، إلى جانب اختبار الفرضيات، والتفكير متعدد الخطوات، وفهم التفكير البشري، مما يجعل هذا التقييم معقدًا ومتعدد الوسائط من حيث قياس القدرات. وجدنا أن نموذج GPT-4o يتفوق بشكل ملحوظ على جميع النماذج الأخرى، تليه النماذج المُخَصَّصة التي تتفوّق على جميع النماذج الأخرى التي تم تقييمها. ومع ذلك، حتى أفضل نموذج يحقق دقة نهائية فقط بنسبة 42%، وتتراجع هذه النسبة إلى 7% في الألغاز الصعبة، مما يبرز الحاجة إلى تحسينات كبيرة في قدرات الاستدلال. علاوة على ذلك، غالبًا ما يفشل النماذج في فهم جميع جوانب اللغز، وغالبًا ما تكون غير قادرة على تفسير الإجابة الصحيحة لاحقًا. وبالتالي، يمكن استخدام هذا المعيار لتحديد الثغرات الكبرى في المعرفة والاستدلال الخاصة بالنماذج الكبيرة متعددة الوسائط.