MIT eröffnet größte Olympiade-Mathematik-Datenbank
Wissenschaftler des Massachusetts Institute of Technology (MIT), in Zusammenarbeit mit der King Abdullah University of Science and Technology (KAUST) und dem Unternehmen HUMAIN, haben den weltweit umfassendsten Datensatz für mathematische Olympiaden-Probleme erstellt und dieser öffentlich zugänglich gemacht. Bisher verstreuten sich die Problembücher nationaler Delegationen nach den internationalen Wettbewerben, ohne systematisch gesammelt oder für Forschung und Lernen aufbereitet zu werden. Das neu entwickelte Projekt MathNet füllt diese Lücke. MathNet ist der bisher größte hochqualitative Datensatz für beweispflichtige Mathematik. Er umfasst mehr als 30.000 von Experten erstellte Probleme und Lösungen, die sich auf 47 Länder, 17 Sprachen und 143 Wettbewerbe verteilen. Damit ist das Korpus fünfmal größer als vergleichbare Datensätze dieser Art. Die Forschungsergebnisse werden Ende dieses Monats auf der International Conference on Learning Representations (ICLR) in Brasilien vorgestellt. Der entscheidende Unterschied von MathNet liegt in seiner globalen Breite. Während frühere Datensätze fast ausschließlich auf Wettbewerbe in den USA und China beschränkt waren, deckt MathNet mehr als vier Jahrzehnte an Mathematikwettbewerben auf sechs Kontinenten ab. Die Sammlung beinhaltet sowohl textbasierte als auch bildbasierte Probleme und Lösungen. Shaden Alshammari, eine Doktorandin am MIT und leitende Autorin der Studie, betonte, dass jede Nation ihre kreativsten Probleme beisteuert, diese jedoch bislang nicht digital vernetzt wurden. Die Zusammenführung des Materials war eine immense logistische Herausforderung. Das Team musste rund 1.595 PDF-Bände mit über 25.000 Seiten zusammenführen, darunter digitale Dokumente und jahrzehntealte Scan-Kopien in mehreren Sprachen. Ein wesentlicher Teil der Archivierung stammte von Navid Safaei, einem langjährigen Mitglied der IMO-Gemeinschaft, der seit 2006 handgeschrieben Sammlungen angefertigt und digitalisiert hatte. Ein weiterer Qualitätsunterschied resultiert aus den Quellen. Anders als bei gängigen Datensätzen, die oft aus öffentlichen Foren stammen, bezieht MathNet Probleme ausschließlich aus offiziellen nationalen Wettbewerbsbüchern. Die enthaltenen Lösungen sind von Experten verfasst und peer-reviewed, oft mit detaillierten Erklärungen mehrerer Lösungswege. Dies bietet Künstlichen Intelligenz-Modellen ein deutlich reichhaltigeres Signal zum Erlernen mathematischer Schlussfolgerungen als informelle, kurze Antworten. Für Schüler weltweit bietet das Projekt nun eine zentralisierte, durchsuchbare Datenbank mit hochwertigen Aufgaben aus unterschiedlichen mathematischen Traditionen. MathNet dient auch als rigoroser Benchmark für die Leistung von KI-Systemen. Die Ergebnisse zeigen, dass Fortschritte in der mathematischen KI ungleichmäßig sind. Selbst das führende Modell GPT-5 erreichte auf dem Hauptbenchmark von 6.400 Problemen im Durchschnitt nur etwa 69,3 Prozent, was bedeutet, dass es fast jedes dritte Problem falsch löste. Die Leistung bricht insbesondere bei bildbasierten Aufgaben signifikant ein, was visuelle Schlussfolgerungsfähigkeiten als Schwachstelle auch modernster Modelle offenbart. Zudem scheiterten viele Open-Source-Modelle vollständig bei Problemen in weniger verbreiteten Sprachen wie Mongolisch, obwohl sie in englischsprachigen Kontexten stark sind. Die Vielfalt des Datensatzes zielt darauf ab, eine kulturelle Verzerrung in der KI-Ausbildung zu korrigieren. Durch die Einbindung unterschiedlicher mathematischer Denkweisen aus Rumänien, Brasilien und anderen Regionen sollen sowohl Menschen als auch Maschinen zu besseren mathematischen Denkern erzogen werden. Darüber hinaus testet das Projekt die Fähigkeit von Modellen, strukturelle Ähnlichkeiten zwischen scheinbar unterschiedlichen Problemen zu erkennen – eine Fähigkeit, die selbst für menschliche Prüfer eine Herausforderung darstellt und für die Entwicklung origineller Prüfungsaufgaben entscheidend ist.
