HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 3 Tagen

PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten

PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten

Abstract

In diesem Paper stellen wir PolyMath vor, einen mehrsprachigen Benchmark für mathematisches Schlussfolgern, der 18 Sprachen und vier Schwierigkeitsstufen – von einfach bis anspruchsvoll – abdeckt. Unser Benchmark gewährleistet eine umfassende Schwierigkeitsabstufung, hohe sprachliche Vielfalt und qualitativ hochwertige Übersetzungen, wodurch er zu einem äußerst differenzierenden mehrsprachigen Benchmark im Zeitalter von Schlussfolgerungs-LLMs wird. Wir führen eine umfassende Evaluation fortschrittlicher LLMs durch und stellen fest, dass selbst Qwen-3-235B-A22B-Thinking und Gemini-2.5-pro lediglich 54,6 bzw. 52,2 Punkte im Benchmark erreichen, wobei die Genauigkeit auf der höchsten Schwierigkeitsstufe bei etwa 40 % liegt. Aus sprachlicher Sicht offenbart unser Benchmark mehrere zentrale Herausforderungen für LLMs im mehrsprachigen Schlussfolgern: (1) Die Schlussfolgerungsleistung variiert erheblich zwischen den Sprachen bei aktuellen LLMs; (2) Die Konsistenz zwischen Eingabe- und Ausgabesprache ist bei Schlussfolgerungs-LLMs gering und könnte mit der Leistungsfähigkeit korrelieren; (3) Die Länge des Denkprozesses unterscheidet sich signifikant je nach Sprache bei aktuellen LLMs. Zudem zeigen wir, dass die Steuerung der Ausgabesprache in den Anweisungen das Schlussfolgerungsergebnis beeinflussen kann, insbesondere bei einigen Sprachen mit geringen Ressourcen, was einen vielversprechenden Ansatz für die Verbesserung der mehrsprachigen Fähigkeiten von LLMs nahelegt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten | Forschungsarbeiten | HyperAI