Command Palette
Search for a command to run...
مؤشر إنتاجية الذكاء الاصطناعي (APEX)
مؤشر إنتاجية الذكاء الاصطناعي (APEX)
الملخص
نقدم الإصدار الأول من مؤشر إنتاجية الذكاء الاصطناعي (APEX)، وهو معيار لتقييم ما إذا كانت النماذج المتقدمة للذكاء الاصطناعي قادرة على أداء أعمال معرفية ذات قيمة اقتصادية عالية. ويُعالج مؤشر APEX واحدة من أكبر الهدر في أبحاث الذكاء الاصطناعي: فبينما يُستخدم المعايير غالبًا في مجال البرمجة، فإنها غالبًا ما تفشل في اختبار القدرات ذات الأهمية الاقتصادية في المجالات الأخرى. يتضمن الإصدار الأول من APEX (APEX-v1.0) 200 حالة اختبار، ويغطي أربع مجالات رئيسية: البنوك الاستثمارية، والاستشارات الإدارية، والقانون، والرعاية الصحية الأولية. وقد تم بناء هذا المعيار عبر ثلاث خطوات: أولاً، تم استقطاب خبراء يتمتعون بخبرة عالية جدًا، مثل محللي البنوك الاستثمارية من شركة جولدمان ساكس. ثانيًا، قام الخبراء بإعداد أوامر (Prompts) تعكس المهام ذات القيمة العالية في عملهم اليومي. ثالثًا، قام الخبراء بوضع معايير تقييم (Rubrics) لتقييم استجابات النماذج. وقد تم تقييم 23 نموذجًا متقدمًا على معيار APEX-v1.0 باستخدام مُقيّم نموذج لغوي (LM judge). وقد حقق نموذج GPT 5 (التفكير = عالٍ) أعلى متوسط درجة (64.2٪)، تلاه نموذج Grok 4 (61.3٪)، ثم نموذج Gemini 2.5 Flash (التفكير = مفعل) (60.4٪). أما نموذج Qwen 3 235B، فهو أفضل نموذج مفتوح المصدر من حيث الأداء، ويأتي في المرتبة السابعة عالميًا. وتشير الفجوة الكبيرة بين أداء أفضل النماذج والخبراء البشريين إلى الحاجة الملحة إلى تطوير قياسات أكثر دقة لقدرات النماذج في إنتاج أعمال ذات قيمة اقتصادية حقيقية.