HyperAIHyperAI

Command Palette

Search for a command to run...

LiveCodeBench Pro: Wie beurteilen Olympiademedaille-Gewinner LLMs im Wettbewerbsprogrammieren?

Zusammenfassung

Neuere Berichte behaupten, dass große Sprachmodelle (LLMs) nun in wettbewerbsorientierter Programmierung Elite-Menschen übertrumpfen. Indem wir auf Wissen von einer Gruppe von Medaillengewinnern internationaler algorithmischer Wettbewerbe zurückgreifen, prüfen wir diese Behauptung und untersuchen, wie sich LLMs von menschlichen Experten unterscheiden und wo noch Einschränkungen bestehen. Wir stellen LiveCodeBench Pro vor, eine Benchmark, die aus Aufgaben des Codeforces, ICPC und IOI besteht und kontinuierlich aktualisiert wird, um die Wahrscheinlichkeit von Datenkontamination zu verringern. Ein Team von Olympiamedaillengewinnern klassifiziert jedes Problem nach algorithmischen Kategorien und führt eine zeilenweise Analyse fehlgeschlagener modellgenerierter Abgaben durch. Mit Hilfe dieser neuen Daten und der Benchmark stellen wir fest, dass die neuesten Modelle erhebliche Einschränkungen haben: ohne externe Werkzeuge erreicht das beste Modell nur 53 % Pass@1 bei mittelschwierigen Aufgaben und 0 % bei schweren Aufgaben – Bereiche, in denen menschliche Experten immer noch hervorragend sind. Wir finden auch heraus, dass LLMs bei implementierungsbetonten Aufgaben erfolgreich sind, aber mit nuanciertem algorithmischem Denken und komplexer Fallanalyse Schwierigkeiten haben und oft selbstbewusst falsche Begründungen generieren. Hohe Leistungen scheinen hauptsächlich durch Implementierungsgenauigkeit und Werkzeugverstärkung getrieben zu sein, nicht durch überlegene Denkfähigkeiten. LiveCodeBench Pro hebt somit die erhebliche Lücke zu den Niveaus menschlicher Grandmasters hervor und bietet detaillierte Diagnosemöglichkeiten, um zukünftige Verbesserungen im codezentrierten Denken von LLMs zu steuern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp