FrontierMath: معيار لتقييم الاستدلال الرياضي المتقدم في الذكاء الاصطناعي

نُقدِّم "FrontierMath"، وهو معيار يضم مئات من المشكلات الرياضية الأصلية، والتي صُمّمت وتم التحقق منها من قبل خبراء رياضيات. تغطي هذه الأسئلة معظم الفروع الرئيسية في الرياضيات الحديثة — بدءًا من المشكلات التي تتطلب حسابات مكثفة في نظرية الأعداد والتحليل الحقيقي، وانتهاءً بالأسئلة المجردة في الهندسة الجبرية ونظرية الفئات. يتطلب حل مسألة نموذجية بذل بذل بحثي يمتد لعدة ساعات من قبل باحث في الفرع المتعلق بالرياضيات، بينما قد يستغرق حل الأسئلة الأعلى صعوبة عدة أيام. يعتمد FrontierMath على مشكلات جديدة وغير منشورة، مع استخدام التحقق الآلي، مما يسمح بتقييم نموذج نموذج بموثوقية عالية، ويقلل إلى أقصى حد من خطر تلوث البيانات. تُحلّ حاليًا أقل من 2% من المشكلات بواسطة أحدث النماذج الذكية الاصطناعية، مما يُظهر فجوة كبيرة بين قدرات الذكاء الاصطناعي ومستوى الكفاءة لدى المجتمع الرياضي. مع تقدم أنظمة الذكاء الاصطناعي نحو القدرة الرياضية على مستوى الخبير، يوفر FrontierMath بيئة اختبار صارمة تُقيّم تقدّم هذه الأنظمة بشكل كمي.