MIT تطلق أكبر مجموعة مسابقات رياضية للجمهور
أعلن باحثون من مختبر CSAIL في معهد ماساتشوستس للتكنولوجيا، بالتعاون مع جامعة الملك عبد الله للعلوم والتقنية وشركة HUMAIN، عن إطلاق "ماث نت" (MathNet)، وهو أكبر مجموعة بيانات في العالم لمشاكل الرياضيات الأولمبية المعتمدة على البراهين. تضم هذه المجموعة الفريدة أكثر من 30 ألف مسألة وحل مفصل من 17 لغة و47 دولة في 143 مسابقة مختلفة، مما يجعل حجمها خمس مرات أكبر من أي مجموعة بيانات مشابهة موجودة سابقًا. سيتم عرض البحث في conferencia الدولية حول تمثيلات التعلم (ICLR) في البرازيل قريبًا. يتميز "ماث نت" بتنوعه الجغرافي واللغوي الواسع الذي يغلب عليه عادةً التركيز على الولايات المتحدة والصين في مجموعات البيانات السابقة. جمعت الأبحاث بيانات من أكثر من 1595 مجلداً بـ PDF، بما في ذلك مسوحات قديمة تعود لعدة عقود، وذلك بفضل أرشيف شخصي ضخم جمعته يدوياً من نافد صايه، أحد قادة مجتمع الأولمبياد الرياضي منذ عام 2016. تبرز قيمة المجموعة في أن جميع المسائل مستمدة من كتب المسابقات الرسمية الوطنية، مما يضمن جودة عالية للحلول التي يشاركها خبراء ومراجعاتها أقرانهم، بخلاف الحلول المختصرة الموجودة في منتديات المجتمع المفتوحة. يمثل هذا المورد فرصة هائلة لطلاب الرياضيات المتطوعين الذين يدربون أنفسهم بمفردهم، حيث يوفرون مكانًا مركزيًا للبحث عن مسائل عالية الجودة من تقاليد رياضية متنوعة حول العالم. كما أن الفريق يعمل على مشاركة البيانات مع مؤسسة الأولمبياد الرياضي الدولي لضمان صحتها، وقد تم التحقق من آلاف الحلول من خلال مجموعة من 30 حَكّمًا من دول مختلفة بما في ذلك أرمينيا وروسيا وروسيا البيضاء وفيتنام وبولندا. كشف اختبار نماذج الذكاء الاصطناعي على "ماث نت" عن فجوات واضحة رغم التقدم الهائل في هذا المجال. حتى النماذج الرائدة مثل GPT-5 حققت متوسط دقة يقارب 69.3% على مجموعة الاختبار الرئيسية، مما يعني فشلها في حل ثلث المشاكل تقريبًا. واجهت النماذج تحديات أكبر عند التعامل مع المسائل التي تحتوي على رسوم بيانية، حيث انخفض الأداء بشكل ملحوظ، كما فشل بعض النماذج مفتوحة المصدر تمامًا في حل مسائل بلغات نادرة مثل المنغولية. يهدف التنوع في "ماث نت" إلى معالجة التحيز اللغوي والثقافي في تدريب الذكاء الاصطناعي، حيث يسلط الضوء على طرق حل مختلفة للرياضيات مثل التوافقيات الرومانية أو نظرية الأعداد البرازيلية. كما أدخل الباحثون معايير استدعاء جديدة لقياس قدرة النماذج على التعرف على البنى الرياضية المتطابقة في مسائل مختلفة، حيث تبين أن أقوى نماذج التضمين الحالية تتطابق مع المسائل الصحيحة بنسبة 5% فقط في المحاولة الأولى. وتشير النتائج إلى أن تزويد النماذج بمسائل ذات صلة هيكليًا يمكن أن يحسن الأداء بنسبة تصل إلى 12 نقطة مئوية، بينما يؤدي التزويد بمسائل غير ذات صلة إلى تدهور الأداء في حوالي 22% من الحالات.
