GGBench: معيار استنتاج توليدي هندسي للنماذج متعددة الوسائط الموحّدة
Jingxuan Wei Caijun Jia Xi Bai Xinglong Xu Siyuan Li Linzhuang Sun Bihui Yu Conghui He Lijun Wu Cheng Tan

الملخص
يُشير ظهور النماذج متعددة الوسائط الموحّدة (UMMs) إلى تحول جوهري في مجال الذكاء الاصطناعي، حيث ينتقل من التعرف السلبي إلى التوليد النشط عبر الوسائط المختلفة. وعلى الرغم من قدرتها غير المسبوقة على دمج المعلومات، تظل فجوة حاسمة قائمة في مجال التقييم: فمعظم المعايير الحالية تقيس فهمًا تمييزيًا أو توليدًا صورًا غير مقيد بشكل منفصل، دون القدرة على قياس العملية المعرفية المتكاملة للتوليد الاستنتاجي. ولسد هذه الفجوة، نقترح أن تكون البنية الهندسية بيئة اختبار مثالية، نظرًا لاحتياجها الجوهري إلى دمج فهم اللغة مع توليد بصري دقيق. نقدّم GGBench، وهو معيار مصمم خصيصًا لتقييم التفكير التوليدي الهندسي. ويوفّر هذا المعيار إطارًا شاملاً لتشخيص منهجي لقدرة النموذج على فهم وتحليل المعلومات، وليس فقط على التفكير، بل أيضًا على بناء حل نشط، مما يُرسّخ معيارًا أكثر صرامة للأنظمة الذكية من الجيل التالي. موقع المشروع: https://opendatalab-raiser.github.io/GGBench/.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.