vor 17 Tagen

FrontierMath: Ein Benchmark zur Bewertung fortgeschrittener mathematischer Schlussfolgerungsfähigkeiten in KI

Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Caroline Falkman Olsson, Jean-Stanislas Denain, Anson Ho, Emily de Oliveira Santos, Olli Järviniemi, Matthew Barnett, Robert Sandler, Matej Vrzala, Jaime Sevilla, Qiuyu Ren, Elizabeth Pratt, Lionel Levine, Grant Barkley, Natalie Stewart, Bogdan Grechuk, Tetiana Grechuk, Shreepranav Varma Enugandla, Mark Wildon

Details der Forschungsarbeit anzeigen

FrontierMath: Ein Benchmark zur Bewertung fortgeschrittener mathematischer Schlussfolgerungsfähigkeiten in KI

Abstract

Wir stellen FrontierMath vor, eine Benchmark mit Hunderten origineller, außergewöhnlich anspruchsvoller mathematischer Aufgaben, die von Experten aus der Mathematik entwickelt und geprüft wurden. Die Fragen umfassen die meisten zentralen Zweige der modernen Mathematik – von rechenintensiven Problemen der Zahlentheorie und reellen Analysis bis hin zu abstrakten Fragestellungen der algebraischen Geometrie und der Kategorientheorie. Die Lösung einer typischen Aufgabe erfordert mehrere Stunden Arbeit eines Forschers aus dem jeweiligen Fachgebiet; bei den anspruchsvollsten Aufgaben sind sogar mehrere Tage notwendig. FrontierMath setzt dabei neue, bisher nicht veröffentlichte Aufgaben ein und nutzt automatisierte Verifikation, um Modelle zuverlässig zu bewerten und das Risiko einer Datenkontamination zu minimieren. Aktuelle Spitzenmodelle der KI lösen unter 2 % der Aufgaben, was eine erhebliche Lücke zwischen den Fähigkeiten der KI und dem Können der mathematischen Fachgemeinschaft aufzeigt. Während KI-Systeme sich der Expertenfähigkeit in der Mathematik nähern, bietet FrontierMath eine strenge Testumgebung, die deren Fortschritte quantifizierbar macht.