HyperAIHyperAI

Command Palette

Search for a command to run...

LiveCodeBench Pro: オリンピックメダリストが競技プログラミングにおけるLLMの評価方法を解説

概要

最近の報告によれば、大規模言語モデル(LLMs)が競技プログラミングにおいて一流の人間を上回っているとされています。本研究では、国際アルゴリズムコンテストでのメダリストたちの知識を基に、この主張を見直し、LLMsが人間の専門家とどのように異なるか、またどのような制限がまだ存在するかを検討します。私たちは、Codeforces、ICPC、およびIOIからの問題で構成され、継続的に更新されてデータ汚染の可能性を低減する新しいベンチマーク「LiveCodeBench Pro」を導入しました。オリンピックメダリストチームが各問題のアルゴリズムカテゴリを注釈し、失敗したモデル生成サブミッションの行単位分析を行いました。この新データとベンチマークを使用して調査した結果、最先端のモデルにもなお著しい制限があることが明らかになりました。外部ツールなしでは、最良のモデルでも中程度の難易度の問題で53%のpass@1しか達成できず、難しい問題では0%でした。これらの領域は依然として人間の専門家が優れていることを示しています。また、LLMsは実装中心の問題では成功していますが、繊細なアルゴリズム推論や複雑なケース分析には苦戦しており、しばしば自信満々に誤った説明を生成することがあります。高性能は主に実装精度とツール強化によってもたらされるものであり、優れた推論能力によるものではないようです。したがって、「LiveCodeBench Pro」は人間の大師匠レベルとの大きなギャップを浮き彫りにするとともに、コード中心のLLM推論における今後の改善に向けて詳細な診断情報を提供します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
LiveCodeBench Pro: オリンピックメダリストが競技プログラミングにおけるLLMの評価方法を解説 | 記事 | HyperAI超神経