Command Palette
Search for a command to run...
AetherCode: Die Bewertung der Fähigkeit von LLMs, in führenden Programmierwettbewerben zu gewinnen
Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

Abstract
Wettbewerbsorientiertes Programmieren ist zu einem entscheidenden Maßstab für die Beurteilung der Schlussfolgerungsfähigkeiten und Programmierkompetenzen von großen Sprachmodellen (Large Language Models, LLMs) geworden. Trotz beachtlicher Fortschritte auf bestehenden Benchmarks argumentieren wir, dass die aktuellen Bewertungen die Leistungsfähigkeit der Modelle überbewerten und eine erhebliche Lücke zwischen LLMs und exzellenten menschlichen Programmierern verschleiern. Diese Lücke resultiert aus zwei zentralen Einschränkungen: einer unzureichenden Schwierigkeitsstufe und Reichweite der Benchmark-Aufgaben sowie einer Bewertungsverzerrung durch geringwertige Testfälle. Um diese Mängel zu beheben, stellen wir AetherCode vor, einen neuen Benchmark, der Aufgaben aus renommierten Programmierwettbewerben wie der IOI (International Olympiad in Informatics) und der ICPC (International Collegiate Programming Contest) entnimmt und damit eine breitere Abdeckung sowie höhere Schwierigkeit bietet. AetherCode integriert zudem umfassende, von Experten validierte Test-Suiten, die durch eine Kombination aus automatisierter Generierung und menschlicher Kuratierung erstellt wurden, um eine strenge und zuverlässige Bewertung zu gewährleisten. Durch die Kombination herausfordernder Problemformulierungen mit einer robusten Bewertung liefert AetherCode eine genauere Messung der Fähigkeiten von LLMs und setzt eine neue Benchmark für zukünftige Forschung im Bereich des Code-Reasoning.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.