vor 2 Monaten

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

Zusammenfassung

In diesem Paper stellen wir PolyMath vor, einen mehrsprachigen Benchmark für mathematisches Schlussfolgern, der 18 Sprachen und vier Schwierigkeitsstufen – von einfach bis anspruchsvoll – abdeckt. Unser Benchmark gewährleistet eine umfassende Schwierigkeitsabstufung, hohe sprachliche Vielfalt und qualitativ hochwertige Übersetzungen, wodurch er zu einem äußerst differenzierenden mehrsprachigen Benchmark im Zeitalter von Schlussfolgerungs-LLMs wird. Wir führen eine umfassende Evaluation fortschrittlicher LLMs durch und stellen fest, dass selbst Qwen-3-235B-A22B-Thinking und Gemini-2.5-pro lediglich 54,6 bzw. 52,2 Punkte im Benchmark erreichen, wobei die Genauigkeit auf der höchsten Schwierigkeitsstufe bei etwa 40 % liegt. Aus sprachlicher Sicht offenbart unser Benchmark mehrere zentrale Herausforderungen für LLMs im mehrsprachigen Schlussfolgern: (1) Die Schlussfolgerungsleistung variiert erheblich zwischen den Sprachen bei aktuellen LLMs; (2) Die Konsistenz zwischen Eingabe- und Ausgabesprache ist bei Schlussfolgerungs-LLMs gering und könnte mit der Leistungsfähigkeit korrelieren; (3) Die Länge des Denkprozesses unterscheidet sich signifikant je nach Sprache bei aktuellen LLMs. Zudem zeigen wir, dass die Steuerung der Ausgabesprache in den Anweisungen das Schlussfolgerungsergebnis beeinflussen kann, insbesondere bei einigen Sprachen mit geringen Ressourcen, was einen vielversprechenden Ansatz für die Verbesserung der mehrsprachigen Fähigkeiten von LLMs nahelegt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 2 Monaten

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PolyMath: Bewertung mathematischer Schlussfolgerung in mehrsprachigen Kontexten

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu6 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu

Yiming Wang Pei Zhang Jialong Tang Haoran Wei Baosong Yang Rui Wang Chenshu Sun Feitong Sun Jiran Zhang Junxuan Wu