Command Palette
Search for a command to run...

الملخص
نقدم الإصدار الأول من مؤشر إنتاجية الذكاء الاصطناعي (APEX)، وهو معيار لتقييم ما إذا كانت النماذج المتقدمة للذكاء الاصطناعي قادرة على أداء أعمال معرفية ذات قيمة اقتصادية عالية. ويُعالج مؤشر APEX واحدة من أكبر الهدر في أبحاث الذكاء الاصطناعي: فبينما يُستخدم المعايير غالبًا في مجال البرمجة، فإنها غالبًا ما تفشل في اختبار القدرات ذات الأهمية الاقتصادية في المجالات الأخرى. يتضمن الإصدار الأول من APEX (APEX-v1.0) 200 حالة اختبار، ويغطي أربع مجالات رئيسية: البنوك الاستثمارية، والاستشارات الإدارية، والقانون، والرعاية الصحية الأولية. وقد تم بناء هذا المعيار عبر ثلاث خطوات: أولاً، تم استقطاب خبراء يتمتعون بخبرة عالية جدًا، مثل محللي البنوك الاستثمارية من شركة جولدمان ساكس. ثانيًا، قام الخبراء بإعداد أوامر (Prompts) تعكس المهام ذات القيمة العالية في عملهم اليومي. ثالثًا، قام الخبراء بوضع معايير تقييم (Rubrics) لتقييم استجابات النماذج. وقد تم تقييم 23 نموذجًا متقدمًا على معيار APEX-v1.0 باستخدام مُقيّم نموذج لغوي (LM judge). وقد حقق نموذج GPT 5 (التفكير = عالٍ) أعلى متوسط درجة (64.2٪)، تلاه نموذج Grok 4 (61.3٪)، ثم نموذج Gemini 2.5 Flash (التفكير = مفعل) (60.4٪). أما نموذج Qwen 3 235B، فهو أفضل نموذج مفتوح المصدر من حيث الأداء، ويأتي في المرتبة السابعة عالميًا. وتشير الفجوة الكبيرة بين أداء أفضل النماذج والخبراء البشريين إلى الحاجة الملحة إلى تطوير قياسات أكثر دقة لقدرات النماذج في إنتاج أعمال ذات قيمة اقتصادية حقيقية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.