PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten
PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten

Abstract
In diesem Paper stellen wir PolyMath vor, einen mehrsprachigen Benchmark für mathematisches Schlussfolgern, der 18 Sprachen und vier Schwierigkeitsstufen – von einfach bis anspruchsvoll – abdeckt. Unser Benchmark gewährleistet eine umfassende Schwierigkeitsabstufung, hohe sprachliche Vielfalt und qualitativ hochwertige Übersetzungen, wodurch er zu einem äußerst differenzierenden mehrsprachigen Benchmark im Zeitalter von Schlussfolgerungs-LLMs wird. Wir führen eine umfassende Evaluation fortschrittlicher LLMs durch und stellen fest, dass selbst Qwen-3-235B-A22B-Thinking und Gemini-2.5-pro lediglich 54,6 bzw. 52,2 Punkte im Benchmark erreichen, wobei die Genauigkeit auf der höchsten Schwierigkeitsstufe bei etwa 40 % liegt. Aus sprachlicher Sicht offenbart unser Benchmark mehrere zentrale Herausforderungen für LLMs im mehrsprachigen Schlussfolgern: (1) Die Schlussfolgerungsleistung variiert erheblich zwischen den Sprachen bei aktuellen LLMs; (2) Die Konsistenz zwischen Eingabe- und Ausgabesprache ist bei Schlussfolgerungs-LLMs gering und könnte mit der Leistungsfähigkeit korrelieren; (3) Die Länge des Denkprozesses unterscheidet sich signifikant je nach Sprache bei aktuellen LLMs. Zudem zeigen wir, dass die Steuerung der Ausgabesprache in den Anweisungen das Schlussfolgerungsergebnis beeinflussen kann, insbesondere bei einigen Sprachen mit geringen Ressourcen, was einen vielversprechenden Ansatz für die Verbesserung der mehrsprachigen Fähigkeiten von LLMs nahelegt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.