مباراة ذكاء اصطناعي: اختبار قدرة النماذج على التفكير الاستراتيجي عبر لعبة سكريبس
أُقيمت مسابقة "LLM Skirmish" لتقييم أداء النماذج اللغوية الكبيرة في بيئة استراتيجية حية، من خلال مواجهات مباشرة في لعبة "Screeps"، وهي لعبة استراتيجية في الوقت الفعلي تُدار بالكامل عبر كتابة أكواد JavaScript. الهدف من المسابقة هو اختبار قدرة النماذج على التفكير الاستراتيجي والتنفيذ البرمجي في بيئة ديناميكية، مع التركيز على مهارة البرمجة التي تمثل أحد أبرز مزايا النماذج الحديثة. تضم المسابقة خمسة نماذج رئيسية: Claude Opus 4.5، GPT 5.2، Grok 4.1 Fast، GLM 4.7، وGemini 3 Pro. تُجرى كل جولة من الجولات الخمس عبر مواجهات 1 مقابل 1، حيث يُطلب من كل نموذج كتابة استراتيجية برمجية لتحكم وحداته في اللعبة. تبدأ كل مباراة بـ"مولد" (Spawn) ووحدة عسكرية وثلاث وحدات اقتصادية، والهدف هو تدمير مولد الخصم. إذا لم يُستكمل التدمير خلال 2000 إطار، يُحدد الفائز بناءً على النقاط. تم استخدام منصة OpenCode، وهي بيئة مفتوحة المصدر لكتابة الكود الآلي، لتشغيل النماذج داخل حاويات دوكسر منفصلة، مع تكليف المُنظِّم بإدارة التفاعلات وتقديم التعليمات. في الجولات الثانية إلى الخامسة، يُسمح للنماذج بتحليل نتائج الجولات السابقة وتعديل استراتيجياتها، مما يُختبر قدرتها على التعلم في السياق. أظهرت النتائج أن Claude Opus 4.5 تصدر الترتيب بـ85 فوزًا مقابل 15 خسارة (نسبة 85%) وتصنيف ELO 1778، يليه GPT 5.2 بـ68 فوزًا و32 خسارة (68%) وELO 1625. أما Grok 4.1 Fast وGLM 4.7 فقد حققا نسب فوز 39% و32% على التوالي، بينما تراجع Gemini 3 Pro بشكل ملحوظ: بدأ بـ70% في الجولة الأولى، ثم انخفض إلى 15% في الجولات التالية. يُعتقد أن هذا التراجع ناتج عن "تلوث السياق" (context rot)، حيث حاول Gemini 3 Pro استيعاب كميات كبيرة من البيانات السابقة، مما أثر على جودة استراتيجياته. من ناحية التحسّن، أظهرت معظم النماذج تطورًا واضحًا بين الجولة الأولى والخامسة، خصوصًا Claude Opus 4.5 (+20%) وGLM 4.7 (+16%). أما GPT 5.2، فقد تحسن بنسبة 7%، بينما زاد Grok 4.1 Fast بنسبة 6%. تُعدّ GPT 5.2 النموذج الوحيد الذي نجح في كسر سلسلة انتصارات Claude Opus 4.5 في الجولات الأخيرة، ما جعلها تُعتبر "الخصم الحقيقي" له. من حيث الكفاءة التكلفة، حقق GPT 5.2 أداءً متميزًا، حيث يُنتج تقريبًا 1.7 مرة أكثر من ELO لكل دولار مقارنة بـClaude Opus 4.5، رغم أن الأخير كان الأعلى في التصنيف. في المقابل، تُظهر GLM 4.7 توازنًا مثيرًا للاهتمام: ففي المواجهات المباشرة، حققت نسبة فوز 50% مع كل نموذج، لكنها تراجعت 15 نقطة في الفوز على Grok 4.1 Fast، مما يُشير إلى ضعفها أمام بعض النماذج. في المجمل، تُظهر LLM Skirmish تباينًا ملحوظًا في الأداء، ليس فقط من حيث الفوز والخسارة، بل أيضًا في القدرة على التعلم من التجربة، وفعالية استخدام السياق، وتكاليف التشغيل، مما يُعدّ مقياسًا شاملًا لقياس نضج النماذج اللغوية في بيئة حقيقية ومتعددة التحديات.
