HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

AetherCode: Die Bewertung der Fähigkeit von LLMs, in führenden Programmierwettbewerben zu gewinnen

Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

AetherCode: Die Bewertung der Fähigkeit von LLMs, in führenden Programmierwettbewerben zu gewinnen

Abstract

Wettbewerbsorientiertes Programmieren ist zu einem entscheidenden Maßstab für die Beurteilung der Schlussfolgerungsfähigkeiten und Programmierkompetenzen von großen Sprachmodellen (Large Language Models, LLMs) geworden. Trotz beachtlicher Fortschritte auf bestehenden Benchmarks argumentieren wir, dass die aktuellen Bewertungen die Leistungsfähigkeit der Modelle überbewerten und eine erhebliche Lücke zwischen LLMs und exzellenten menschlichen Programmierern verschleiern. Diese Lücke resultiert aus zwei zentralen Einschränkungen: einer unzureichenden Schwierigkeitsstufe und Reichweite der Benchmark-Aufgaben sowie einer Bewertungsverzerrung durch geringwertige Testfälle. Um diese Mängel zu beheben, stellen wir AetherCode vor, einen neuen Benchmark, der Aufgaben aus renommierten Programmierwettbewerben wie der IOI (International Olympiad in Informatics) und der ICPC (International Collegiate Programming Contest) entnimmt und damit eine breitere Abdeckung sowie höhere Schwierigkeit bietet. AetherCode integriert zudem umfassende, von Experten validierte Test-Suiten, die durch eine Kombination aus automatisierter Generierung und menschlicher Kuratierung erstellt wurden, um eine strenge und zuverlässige Bewertung zu gewährleisten. Durch die Kombination herausfordernder Problemformulierungen mit einer robusten Bewertung liefert AetherCode eine genauere Messung der Fähigkeiten von LLMs und setzt eine neue Benchmark für zukünftige Forschung im Bereich des Code-Reasoning.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AetherCode: Die Bewertung der Fähigkeit von LLMs, in führenden Programmierwettbewerben zu gewinnen | Forschungsarbeiten | HyperAI