عندما يكون التصور الخطوة الأولى في الاستدلال: ميرا، معيار لسلسلة التفكير البصري

الملخص
نُقدِّم MIRA، معيارًا جديدًا مُصممًا لتقييم النماذج في السيناريوهات التي يُعدُّ إنشاء صور بصرية وسيطة ضروريًا لتحقيق الاستدلال الناجح. على عكس الطرق التقليدية المبنية على التفكير التسلسلي (CoT) التي تعتمد فقط على النص، تتطلب مهام MIRA من النماذج إنشاء صور وسطية واستخدامها — مثل الرسومات التوضيحية، أو المخططات الهيكلية، أو الرسومات المُصوَّرة للمسارات — لتوجيه عملية الاستدلال. ويُحاكي هذا التصميم بوضوح الطريقة التي يُحلّ بها البشر المسائل المعقدة من خلال "الرسم للفكر". ولحل هذه المهام، تركز MIRA على مسائل ذات طبيعة صعبة بطبيعتها، وتحتوي على هياكل معقدة، أو علاقات مكانيّة، أو خطوات استدلال يصعب التعبير عنها باللغة وحدها. ولضمان جودة عالية في بيانات التقييم، نُضَمِّن 546 مسألة متعددة الوسائط، مُعلَّمة بصور بصرية وسطية والإجابات النهائية. كما نُقدِّم بروتوكولًا موحدًا لتقييم MIRA، يغطي ثلاث مستويات من مدخلات التقييم: المدخل المباشر المكوَّن من الصورة والسؤال فقط، والمدخل النصي (CoT) المُتَمَيِّز بوجود الصورة وتحفيزات التفكير النصية، والمدخل (Visual-CoT) الذي يحتوي على مُؤشِّرات بصرية مُعلَّمة وتحفيزات تفكير نصية. ولتحليل الحد الأقصى لقدرات النماذج على معيارنا، نُقدِّم أيضًا نتائج الأداء بمقاييس "pass@k" ودقة التصويت الأغلبية عند تطبيق قيم مختلفة لـ k. تُظهر النتائج التجريبية أن النماذج الكبيرة متعددة الوسائط الحالية، بما في ذلك أقوى النماذج الخاصة وأفضل النماذج المفتوحة المصدر، تُظهر أداءً ضعيفًا عند الاعتماد فقط على المدخلات النصية. ولكن عند توافر مُؤشِّرات بصرية وسطية، تتحسَّن أداء النماذج بشكل متسق، ما يُحقِّق متوسط زيادة نسبية قدرها 33.7% عبر جميع النماذج والمهام. كما قمنا بتحقيق تقييم للحد الأقصى للقدرة من خلال توسيع فضاء البحث وتصميم مدخلات نصية مُتَناغِمة مع نموذج Visual-CoT، ولكن كلا الاتجاهين أظهرا تحسينات محدودة مقارنة بحالة Visual-CoT. تُبرز هذه النتائج الدور الحاسم للمعلومات البصرية المُتخيَّلة في تمكين الاستدلال الناجح على MIRA.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.