HyperAIHyperAI

Command Palette

Search for a command to run...

مؤشر إنتاجية الذكاء الاصطناعي (APEX)

الملخص

نقدم الإصدار الأول من مؤشر إنتاجية الذكاء الاصطناعي (APEX)، وهو معيار لتقييم ما إذا كانت النماذج المتقدمة للذكاء الاصطناعي قادرة على أداء أعمال معرفية ذات قيمة اقتصادية عالية. ويُعالج مؤشر APEX واحدة من أكبر الهدر في أبحاث الذكاء الاصطناعي: فبينما يُستخدم المعايير غالبًا في مجال البرمجة، فإنها غالبًا ما تفشل في اختبار القدرات ذات الأهمية الاقتصادية في المجالات الأخرى. يتضمن الإصدار الأول من APEX (APEX-v1.0) 200 حالة اختبار، ويغطي أربع مجالات رئيسية: البنوك الاستثمارية، والاستشارات الإدارية، والقانون، والرعاية الصحية الأولية. وقد تم بناء هذا المعيار عبر ثلاث خطوات: أولاً، تم استقطاب خبراء يتمتعون بخبرة عالية جدًا، مثل محللي البنوك الاستثمارية من شركة جولدمان ساكس. ثانيًا، قام الخبراء بإعداد أوامر (Prompts) تعكس المهام ذات القيمة العالية في عملهم اليومي. ثالثًا، قام الخبراء بوضع معايير تقييم (Rubrics) لتقييم استجابات النماذج. وقد تم تقييم 23 نموذجًا متقدمًا على معيار APEX-v1.0 باستخدام مُقيّم نموذج لغوي (LM judge). وقد حقق نموذج GPT 5 (التفكير = عالٍ) أعلى متوسط درجة (64.2٪)، تلاه نموذج Grok 4 (61.3٪)، ثم نموذج Gemini 2.5 Flash (التفكير = مفعل) (60.4٪). أما نموذج Qwen 3 235B، فهو أفضل نموذج مفتوح المصدر من حيث الأداء، ويأتي في المرتبة السابعة عالميًا. وتشير الفجوة الكبيرة بين أداء أفضل النماذج والخبراء البشريين إلى الحاجة الملحة إلى تطوير قياسات أكثر دقة لقدرات النماذج في إنتاج أعمال ذات قيمة اقتصادية حقيقية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مؤشر إنتاجية الذكاء الاصطناعي (APEX) | مستندات | HyperAI