Benchmarks Leipzig
Im Zeitraum vom ersten April bis zum fünfzehnten Mai 2026 initiierten 49 Mathematikerinnen und Mathematiker das Forschungsprojekt Benchmarks in Leipzig. Der Kern der Datenerhebung fand während eines dreitägigen Workshops am Max Planck Institut für Mathematik in den Naturwissenschaften in Leipzig statt. Das Ergebnis ist ein neuartiger Teststandard, der 100 mathematische Aufgaben auf Forschungsniveau mit verifizierten Lösungen umfasst. Dieser Datensatz dient dazu, die Leistungen künstlicher Intelligenz in der formalen Mathematik objektiv und reproduzierbar zu bewerten. Die Leistungsfähigkeit aktueller Sprachmodelle wurde in drei aufeinander aufbauenden Evaluationsphasen gemessen. Zunächst wurden fünf führende Large Language Models in einem einzelnen Durchlauf an den Testaufgaben geprüft. Dabei blieben 41 der 100 Aufgaben ungelöst. In der zweiten Phase testeten drei ausgewählte Modelle die Aufgaben jeweils zwanzigmal. Die Anzahl der ungelösten Probleme sank daraufhin auf 16. Die finale Phase widmete sich zwei spezialisierten Modellen mit erweiterten Denkarchitekturen, die je drei Versuche absolvierten. Bis zum Abschluss der Tests waren lediglich zwei Aufgaben weiterhin nicht lösbar. Die quantitativen Ergebnisse dokumentieren einen signifikanten Anstieg der mathematischen Schlussfolgerungsfähigkeiten aktueller KI Systeme. Die sukzessive Reduktion der ungelösten Aufgaben verdeutlicht, dass iterative Auswertungen und spezialisierte Modellarchitekturen die Leistungsgrenzen deutlich verschieben. Der Leipziger Benchmark liefert der Technologie und KI Forschung damit einen standardisierten Referenzrahmen zur Messung von Fortschritten in der höheren Mathematik. Die vollständige Datengrundlage samt statistischer Auswertungen wurde im entsprechenden Preprint veröffentlicht. Die vorliegenden Befunde unterstreichen, dass die Integration rigoroser mathematischer Prüfstandards einen entscheidenden Beitrag zur Weiterentwicklung zuverlässiger und transparenter KI Systeme leisten wird.
