HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

GenExam: امتحان متعدد التخصصات من نص إلى صورة

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

GenExam: امتحان متعدد التخصصات من نص إلى صورة

الملخص

الامتحانات تمثل اختبارًا أساسيًا لقياس الذكاء على مستوى الخبراء، وتحتاج إلى فهم متكامل، واستنتاج منطقي، وإنتاج دقيق. تتركز المعايير الحالية المُصممة على نمط الامتحانات بشكل رئيسي على مهام الفهم والاستنتاج، بينما تركز المعايير الحديثة على توضيح المعرفة العالمية والمعارف البصرية، مع إغفال تقييم الامتحانات التي تتطلب رسمًا دقيقًا ودقيقًا بصريًا. نقدم "GenExam"، أول معيار مُخصص لامتحانات متعددة التخصصات تُولّد الصور بناءً على النصوص، ويضم 1000 عينة موزعة على 10 موضوعات، مع أسئلة مُصممة على شكل امتحانات وفق تصنيف رباعي المستوى. وتُزوّد كل مسألة بصورة صحيحة (Ground-truth) ونقاط تقييم دقيقة لتمكين تقييم دقيق للدقة المعجمية والقابلية البصرية. أظهرت التجارب أن حتى النماذج المتطورة مثل GPT-Image-1 وGemini-2.5-Flash-Image تحقق أقل من 15% من الدرجات الصارمة، في حين أن معظم النماذج تحقق تقريبًا 0%، مما يشير إلى الصعوبة البالغة التي يفرضها هذا المعيار. وبإطارات عملية لعملية توليد الصور كامتحان، يوفر GenExam تقييمًا صارمًا لقدرات النماذج في دمج المعرفة والاستنتاج والإنتاج، مقدّمًا رؤى قيمة حول المسار نحو تحقيق الذكاء الاصطناعي العام (AGI).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GenExam: امتحان متعدد التخصصات من نص إلى صورة | الأوراق البحثية | HyperAI