HyperAI

LiveCodeBench Pro: Wie beurteilen Olympiademedaille-Gewinner LLMs im Wettbewerbsprogrammieren?

Zihan Zheng, Zerui Cheng, Zeyu Shen, Shang Zhou, Kaiyuan Liu, Hansen He, Dongruixuan Li, Stanley Wei, Hangyi Hao, Jianzhu Yao, Peiyao Sheng, Zixuan Wang, Wenhao Chai, Aleksandra Korolova, Peter Henderson, Sanjeev Arora, Pramod Viswanath, Jingbo Shang, Saining Xie
Veröffentlichungsdatum: 6/16/2025
LiveCodeBench Pro: Wie beurteilen Olympiademedaille-Gewinner LLMs im Wettbewerbsprogrammieren?
Abstract

Neuere Berichte behaupten, dass große Sprachmodelle (LLMs) nun in wettbewerbsorientierter Programmierung Elite-Menschen übertrumpfen. Indem wir auf Wissen von einer Gruppe von Medaillengewinnern internationaler algorithmischer Wettbewerbe zurückgreifen, prüfen wir diese Behauptung und untersuchen, wie sich LLMs von menschlichen Experten unterscheiden und wo noch Einschränkungen bestehen. Wir stellen LiveCodeBench Pro vor, eine Benchmark, die aus Aufgaben des Codeforces, ICPC und IOI besteht und kontinuierlich aktualisiert wird, um die Wahrscheinlichkeit von Datenkontamination zu verringern. Ein Team von Olympiamedaillengewinnern klassifiziert jedes Problem nach algorithmischen Kategorien und führt eine zeilenweise Analyse fehlgeschlagener modellgenerierter Abgaben durch. Mit Hilfe dieser neuen Daten und der Benchmark stellen wir fest, dass die neuesten Modelle erhebliche Einschränkungen haben: ohne externe Werkzeuge erreicht das beste Modell nur 53 % Pass@1 bei mittelschwierigen Aufgaben und 0 % bei schweren Aufgaben – Bereiche, in denen menschliche Experten immer noch hervorragend sind. Wir finden auch heraus, dass LLMs bei implementierungsbetonten Aufgaben erfolgreich sind, aber mit nuanciertem algorithmischem Denken und komplexer Fallanalyse Schwierigkeiten haben und oft selbstbewusst falsche Begründungen generieren. Hohe Leistungen scheinen hauptsächlich durch Implementierungsgenauigkeit und Werkzeugverstärkung getrieben zu sein, nicht durch überlegene Denkfähigkeiten. LiveCodeBench Pro hebt somit die erhebliche Lücke zu den Niveaus menschlicher Grandmasters hervor und bietet detaillierte Diagnosemöglichkeiten, um zukünftige Verbesserungen im codezentrierten Denken von LLMs zu steuern.