O3-Preview naht sich offenen LLMs bei Mathematik-Olympiade-Aufgaben an
Der Abstand zwischen kommerziellen und Open-Source-LLMs im Bereich der Olympiade-Mathematik schrumpft rapide. Eine gemeinsame Evaluierung von OpenAI’s o3-preview – einer noch nicht veröffentlichten, generalistischen Modellversion – mit den ersten beiden Plätzen des Open-Source-Wettbewerbs AIMO Progress Prize 2 (AIMO2), NemoSkills und imagination-research, sowie der Gesamtleistung aller 2.000+ Teams („AIMO2-combined“), zeigt beeindruckende Fortschritte im Bereich mathematischer Schlussfolgerung. Die 50 Aufgaben stammten aus dem öffentlichen Leaderboard von AIMO2, waren für alle Modelle unveröffentlicht und somit kontaminationsfrei, was die Bewertung besonders robust macht. o3-preview erreichte mit der High-Compute-Version 47/50 (Top-Answer) bis 50/50 (inkl. zweitbeste Antwort), wobei selbst die Low-Compute-Version mit 43/50 die Leistung von NemoSkills (33/50 auf Kaggle) übertraf. Nach Anpassung an leistungsfähigere Hardware (8x H100) verbesserten sich NemoSkills und imagination-research auf jeweils 35/50. AIMO2-combined löste ebenfalls 47/50 Aufgaben, was nahe an der Leistung des High-Compute-o3-preview liegt. Besonders auffällig: o3-preview löste Probleme wie „TRIPAR“ und „POLYDI“, die selbst die Top-Teams nicht konnten, während es bei „RUNNER“ nur mit zweitbestem Ergebnis gelang. Umgekehrt löste o3-preview „EIGHTS“ als erstes, nicht aber die Top-Teams. Die Ergebnisse zeigen, dass kommerzielle Modelle zwar noch überlegen sind, aber der Leistungsabstand bei hochkomplexen, kontaminationsfreien Olympiade-Aufgaben deutlich schrumpft – besonders wenn Rechenressourcen berücksichtigt werden. Die Kosten pro Problem für o3-preview liegen bei etwa 1 USD, was vergleichbar ist mit der Nutzung eines einzelnen Open-Source-Modells auf kommerzieller Hardware. Dies deutet auf eine nahezu gleichwertige Leistung pro Rechenkosten hin. Industrieexperten betonen, dass diese Ergebnisse ein Meilenstein für die Gleichstellung von Open-Source- und kommerziellen Modellen darstellen. Die Tatsache, dass ein generalistisches Modell wie o3-preview fast alle Aufgaben löst, zeigt, dass Fortschritte in der allgemeinen KI-Verarbeitung auch mathematische Reasoning-Intelligenz fördern. NemoSkills und imagination-research gelten weiterhin als führende Open-Source-Modelle, obwohl ihre Ansätze unterschiedlich sind – NemoSkills nutzt NVIDIA-Optimierungen, während imagination-research eine Kombination aus Forschung und Studierenden aus Tsinghua und Microsoft Research einsetzt. Die Leistung von AIMO2-combined unterstreicht die Stärke kollektiver Anstrengungen: Durch die Vielzahl an Modellen entstehen viele Antwortkandidaten, die durch ein gutes Reward-Modell selektiert werden können – ein Ansatz, der sich mit kommerziellen Strategien annähert. Die Diskussion über „geahnte“ statt „geleitete“ Antworten bleibt offen und wird in einer kommenden technischen Studie untersucht. Mit der Ankündigung von AIMO3 im Herbst 2025, das auf IMO-Niveau ansetzen wird, wird der Wettbewerb weiter an Schwierigkeit und Relevanz gewinnen. Die AIMO-Community hat bereits konstruktive Rückmeldungen gegeben, die in eine verbesserte Wettbewerbsform umgesetzt werden sollen. Die Ergebnisse von AIMO2 zeigen, dass Open-Source-Entwicklung nicht nur Transparenz, sondern auch wettbewerbsfähige Leistung ermöglicht – ein entscheidender Schritt hin zu einer nachhaltigen und gemeinsamen Fortschrittsentwicklung im Bereich KI und Mathematik.
