Command Palette
Search for a command to run...
Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

الملخص
الامتحانات تمثل اختبارًا أساسيًا لقياس الذكاء على مستوى الخبراء، وتحتاج إلى فهم متكامل، واستنتاج منطقي، وإنتاج دقيق. تتركز المعايير الحالية المُصممة على نمط الامتحانات بشكل رئيسي على مهام الفهم والاستنتاج، بينما تركز المعايير الحديثة على توضيح المعرفة العالمية والمعارف البصرية، مع إغفال تقييم الامتحانات التي تتطلب رسمًا دقيقًا ودقيقًا بصريًا. نقدم "GenExam"، أول معيار مُخصص لامتحانات متعددة التخصصات تُولّد الصور بناءً على النصوص، ويضم 1000 عينة موزعة على 10 موضوعات، مع أسئلة مُصممة على شكل امتحانات وفق تصنيف رباعي المستوى. وتُزوّد كل مسألة بصورة صحيحة (Ground-truth) ونقاط تقييم دقيقة لتمكين تقييم دقيق للدقة المعجمية والقابلية البصرية. أظهرت التجارب أن حتى النماذج المتطورة مثل GPT-Image-1 وGemini-2.5-Flash-Image تحقق أقل من 15% من الدرجات الصارمة، في حين أن معظم النماذج تحقق تقريبًا 0%، مما يشير إلى الصعوبة البالغة التي يفرضها هذا المعيار. وبإطارات عملية لعملية توليد الصور كامتحان، يوفر GenExam تقييمًا صارمًا لقدرات النماذج في دمج المعرفة والاستنتاج والإنتاج، مقدّمًا رؤى قيمة حول المسار نحو تحقيق الذكاء الاصطناعي العام (AGI).
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.