FrontierMath: Ein Benchmark zur Bewertung fortgeschrittener mathematischer Schlussfolgerungsfähigkeiten in KI

Wir stellen FrontierMath vor, eine Benchmark mit Hunderten origineller, außergewöhnlich anspruchsvoller mathematischer Aufgaben, die von Experten aus der Mathematik entwickelt und geprüft wurden. Die Fragen umfassen die meisten zentralen Zweige der modernen Mathematik – von rechenintensiven Problemen der Zahlentheorie und reellen Analysis bis hin zu abstrakten Fragestellungen der algebraischen Geometrie und der Kategorientheorie. Die Lösung einer typischen Aufgabe erfordert mehrere Stunden Arbeit eines Forschers aus dem jeweiligen Fachgebiet; bei den anspruchsvollsten Aufgaben sind sogar mehrere Tage notwendig. FrontierMath setzt dabei neue, bisher nicht veröffentlichte Aufgaben ein und nutzt automatisierte Verifikation, um Modelle zuverlässig zu bewerten und das Risiko einer Datenkontamination zu minimieren. Aktuelle Spitzenmodelle der KI lösen unter 2 % der Aufgaben, was eine erhebliche Lücke zwischen den Fähigkeiten der KI und dem Können der mathematischen Fachgemeinschaft aufzeigt. Während KI-Systeme sich der Expertenfähigkeit in der Mathematik nähern, bietet FrontierMath eine strenge Testumgebung, die deren Fortschritte quantifizierbar macht.