تعلم الآلة يتنبأ بكأس العالم
مشروع توظيف خوارزميات التعلم الآلي للتنبؤ بنتائج كأس العالم 2026 يجمع بين البيانات التاريخية والنمذجة الاحتمالية للتغلب على تعقيدات اللعبة. يستند البحث إلى قاعدة بيانات شاملة تضم أكثر من 49 ألف مباراة دولية تمتد من عام 1872 حتى موسم 2026، مع التركيز على تحديثات تصنيفات إيلو ومواقع الملاعب وسجلات الأهداف. تم تصميم النموذج ليبدأ عملياته التنبؤية مع انطلاق البطولة في الحادي عشر من يونيو في ملعب مكسيكو سيتي. يركز المنهجية على دمج مصادر بيانات متعددة مع تطبيق معالجة لغوية دقيقة لمواءمة أسماء الفرق عبر 336 منتخب، مع تجريب تسرب البيانات عن طريق اعتماد أحدث تحديثات إيلو متاحة قبل انطلاق كل مباراة. تم تطوير سمات هندسية متقدمة تشمل قياسات القرب الإحصائي بين الفرق، معدلات التعادل الأخيرة، مؤشرات الزخم الهجومي والدفاعي على مدى المباريات القليلة الماضية، وسمات سياق البطولة. تم تقسيم البيانات زمنياً لضمان الدقة، مع تخصيص فترة ما بعد عام 2018 لمجموعة الاختبار النهائية التي تضم نحو 8000 مباراة. تمت مقارنة عدة عائلات نمذجة، بدءاً من الانحدار اللوجستي متعدد الحدود والنماذج الأساسية، وصولاً إلى خوارزمية LightGBM. تم ضبط معاملات النموذج الشجري باستخدام بحث شبكي لوغاريتمي متوازن للتحكم في معدل التعلم، عمق الأشجار، ومعاملات التنظيم لتجنب الإفراط في التخصيص. تم اعتماد LightGBM كنموذج رئيسي نظراً لقدرته على التعامل مع التفاعلات المعقدة، رغم أن الانحدار اللوجستي أظهر أداءً متقارباً بل وتفوقاً طفيفاً في مقاييس الدقة على مجموعة الاختبار. أظهرت النتائج قدرة النموذج المختار على معايرة احتمالات الفوز المحلى بدقة عالية، حيث يصل معدل التنبؤ الصحيح للفوز المحلى إلى 86 في المئة، مع توزيع احتمالي موثوق يواكب الدقة الملاحظة. ومع ذلك، يواجه النموذج تحدياً بنياً في التنبؤ بالتعادل، حيث يتوقعه بنسبة ضئيلة رغم أن واحداً من كل خمسة مباريات تنتهي بهذا النتاج. يعكس التحليل أن النماذج تتعرف على مخاطر التعادل في المباريات المتقاربة إحصائياً لكنها تتردد في اعتباره النتيجة الأكثر احتمالاً عند اتخاذ القرار النهائي، مما يستدعي نمذجة منفصلة أو معايير تصنيف مرنة مستقبلاً. تبرز الأهمية النسبية لميزة الفارق في تصنيفات إيلو كمحدد رئيسي، تليها ظروف المباريات على أرض محايدة. يُعد المشروع دليلاً عملياً على نجاح الدمج بين الهندسة الاحترافية للسمات والمعايرة الاحتمالية في تحسين التنبؤات الرياضية. تم نشر الكود الكامل ومصادر البيانات برخصة مفتوحة على منصات التطوير، مما يتيح للمحللين وصنّاع القرار الرياضي الاستفادة من المنهجية أو تطويرها بما يتناسب مع المتطلبات التنبؤية الحديثة.
