
الملخص
إن تحديد المقاييس الأساسية المناسبة يُعد أمرًا بالغ الأهمية لتعزيز قدرات النماذج الأساسية في التفكير الرياضي، خاصةً مع أن التقييمات الحالية إما سهلة جدًا أو تركز فقط على الحصول على إجابات قصيرة صحيحة. ولحل هذه المشكلات، نقدّم "IMO-Bench"، وهي مجموعة من معايير التقييم المتقدمة، التي تم مراجعتها من قبل لجنة من الخبراء المتميزين، وتستهدف بشكل خاص مستوى الأولمبياد الدولي للرياضيات (IMO)، وهو أبرز منصة للمathe-maticians الشبان. يُختبر النموذج أولاً في "IMO-AnswerBench" على 400 مشكلة متنوعة من الأولمبياد، تُقدَّم إجاباتها بعبارات قصيرة يمكن التحقق منها. أما "IMO-Proof Bench"، فهو تقييم من المستوى التالي، يُركّز على قدرة النموذج في كتابة الأدلة، ويشمل مشكلات من المستويات الأساسية والمتقدمة في الأولمبياد، إلى جانب إرشادات تقييم مفصلة تُسهِّل التقييم التلقائي. لعبت هذه المعايير دورًا حاسمًا في إنجازنا التاريخي المتمثل في الأداء بمستوى الميدالية الذهبية في الأولمبياد الدولي للرياضيات 2025 باستخدام نموذج Gemini Deep Think (لوونغ و لوكهارت، 2025). فقد حقق نموذجنا تقييمًا بنسبة 80.0% في "IMO-AnswerBench"، وبنسبة 65.7% في "IMO-Proof Bench" المتقدمة، متفوّقًا على أفضل النماذج غير المبنية على Gemini بنسبة 6.9% و42.4% على التوالي. كما أظهرنا أن أنظمة التقييم التلقائي المبنية على تفكير Gemini تتماشى جيدًا مع تقييمات البشر، وتم إنشاء "IMO-GradingBench" التي تتضمن 1000 تقييم بشري لبراهين رياضية، بهدف تمكين تقدّم إضافي في تقييم الإجابات المطولة تلقائيًا. ونأمل أن يسهم "IMO-Bench" في دفع عجلة تقدّم التفكير الرياضي القوي داخل المجتمع العلمي، ونُطلقه عبر الرابط التالي: https://url.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.