HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 5 أيام

مؤشر إنتاجية الذكاء الاصطناعي (APEX)

مؤشر إنتاجية الذكاء الاصطناعي (APEX)

الملخص

نقدم الإصدار الأول من مؤشر إنتاجية الذكاء الاصطناعي (APEX)، وهو معيار لتقييم ما إذا كانت النماذج المتقدمة للذكاء الاصطناعي قادرة على أداء أعمال معرفية ذات قيمة اقتصادية عالية. ويُعالج مؤشر APEX واحدة من أكبر الهدر في أبحاث الذكاء الاصطناعي: فبينما يُستخدم المعايير غالبًا في مجال البرمجة، فإنها غالبًا ما تفشل في اختبار القدرات ذات الأهمية الاقتصادية في المجالات الأخرى. يتضمن الإصدار الأول من APEX (APEX-v1.0) 200 حالة اختبار، ويغطي أربع مجالات رئيسية: البنوك الاستثمارية، والاستشارات الإدارية، والقانون، والرعاية الصحية الأولية. وقد تم بناء هذا المعيار عبر ثلاث خطوات: أولاً، تم استقطاب خبراء يتمتعون بخبرة عالية جدًا، مثل محللي البنوك الاستثمارية من شركة جولدمان ساكس. ثانيًا، قام الخبراء بإعداد أوامر (Prompts) تعكس المهام ذات القيمة العالية في عملهم اليومي. ثالثًا، قام الخبراء بوضع معايير تقييم (Rubrics) لتقييم استجابات النماذج. وقد تم تقييم 23 نموذجًا متقدمًا على معيار APEX-v1.0 باستخدام مُقيّم نموذج لغوي (LM judge). وقد حقق نموذج GPT 5 (التفكير = عالٍ) أعلى متوسط درجة (64.2٪)، تلاه نموذج Grok 4 (61.3٪)، ثم نموذج Gemini 2.5 Flash (التفكير = مفعل) (60.4٪). أما نموذج Qwen 3 235B، فهو أفضل نموذج مفتوح المصدر من حيث الأداء، ويأتي في المرتبة السابعة عالميًا. وتشير الفجوة الكبيرة بين أداء أفضل النماذج والخبراء البشريين إلى الحاجة الملحة إلى تطوير قياسات أكثر دقة لقدرات النماذج في إنتاج أعمال ذات قيمة اقتصادية حقيقية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp