HyperAIHyperAI
منذ 17 أيام

FrontierMath: معيار لتقييم الاستدلال الرياضي المتقدم في الذكاء الاصطناعي

Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Caroline Falkman Olsson, Jean-Stanislas Denain, Anson Ho, Emily de Oliveira Santos, Olli Järviniemi, Matthew Barnett, Robert Sandler, Matej Vrzala, Jaime Sevilla, Qiuyu Ren, Elizabeth Pratt, Lionel Levine, Grant Barkley, Natalie Stewart, Bogdan Grechuk, Tetiana Grechuk, Shreepranav Varma Enugandla, Mark Wildon
FrontierMath: معيار لتقييم الاستدلال الرياضي المتقدم في الذكاء الاصطناعي
الملخص

نُقدِّم "FrontierMath"، وهو معيار يضم مئات من المشكلات الرياضية الأصلية، والتي صُمّمت وتم التحقق منها من قبل خبراء رياضيات. تغطي هذه الأسئلة معظم الفروع الرئيسية في الرياضيات الحديثة — بدءًا من المشكلات التي تتطلب حسابات مكثفة في نظرية الأعداد والتحليل الحقيقي، وانتهاءً بالأسئلة المجردة في الهندسة الجبرية ونظرية الفئات. يتطلب حل مسألة نموذجية بذل بذل بحثي يمتد لعدة ساعات من قبل باحث في الفرع المتعلق بالرياضيات، بينما قد يستغرق حل الأسئلة الأعلى صعوبة عدة أيام. يعتمد FrontierMath على مشكلات جديدة وغير منشورة، مع استخدام التحقق الآلي، مما يسمح بتقييم نموذج نموذج بموثوقية عالية، ويقلل إلى أقصى حد من خطر تلوث البيانات. تُحلّ حاليًا أقل من 2% من المشكلات بواسطة أحدث النماذج الذكية الاصطناعية، مما يُظهر فجوة كبيرة بين قدرات الذكاء الاصطناعي ومستوى الكفاءة لدى المجتمع الرياضي. مع تقدم أنظمة الذكاء الاصطناعي نحو القدرة الرياضية على مستوى الخبير، يوفر FrontierMath بيئة اختبار صارمة تُقيّم تقدّم هذه الأنظمة بشكل كمي.