HyperAIHyperAI
منذ 18 أيام

ريبوس: معيار تقييم متين لفهم الرموز

{Michelle Hung, Lydia La Roux, Jonathan Chiang, Joe Cavanagh, Irina Gritsevskaya, Hans Gundlach, Derik Kauffman, Aaron Kirtland, Arjun Panickssery, Andrew Gritsevskiy}
ريبوس: معيار تقييم متين لفهم الرموز
الملخص

نُقدّم معيارًا جديدًا لتقييم أداء النماذج الكبيرة متعددة الوسائط من لغة التوسع على ألغاز الرموز الصورية (الرِّيْبُس). يشمل المجموعة البيانات 333 مثالًا أصليًا من الألغاز القائمة على الصور، والتي تُلمّح إلى 13 فئة مختلفة، مثل الأفلام، والملحنين، والمدن الكبرى، والأطعمة. ولتحقيق أداء جيد في هذا المعيار، والذي يعتمد على تحديد الكلمة أو العبارة المُرَمَّزة، يجب على النماذج دمج التعرف على الصور مع معالجة السلسلة النصية، إلى جانب اختبار الفرضيات، والتفكير متعدد الخطوات، وفهم التفكير البشري، مما يجعل هذا التقييم معقدًا ومتعدد الوسائط من حيث قياس القدرات. وجدنا أن نموذج GPT-4o يتفوق بشكل ملحوظ على جميع النماذج الأخرى، تليه النماذج المُخَصَّصة التي تتفوّق على جميع النماذج الأخرى التي تم تقييمها. ومع ذلك، حتى أفضل نموذج يحقق دقة نهائية فقط بنسبة 42%، وتتراجع هذه النسبة إلى 7% في الألغاز الصعبة، مما يبرز الحاجة إلى تحسينات كبيرة في قدرات الاستدلال. علاوة على ذلك، غالبًا ما يفشل النماذج في فهم جميع جوانب اللغز، وغالبًا ما تكون غير قادرة على تفسير الإجابة الصحيحة لاحقًا. وبالتالي، يمكن استخدام هذا المعيار لتحديد الثغرات الكبرى في المعرفة والاستدلال الخاصة بالنماذج الكبيرة متعددة الوسائط.

ريبوس: معيار تقييم متين لفهم الرموز | أحدث الأوراق البحثية | HyperAI