LiveCodeBench Pro: オリンピックメダリストが競技プログラミングにおけるLLMの評価方法を解説
Zihan Zheng, Zerui Cheng, Zeyu Shen, Shang Zhou, Kaiyuan Liu, Hansen He, Dongruixuan Li, Stanley Wei, Hangyi Hao, Jianzhu Yao, Peiyao Sheng, Zixuan Wang, Wenhao Chai, Aleksandra Korolova, Peter Henderson, Sanjeev Arora, Pramod Viswanath, Jingbo Shang, Saining Xie
公開日: 6/16/2025

要約
最近の報告によれば、大規模言語モデル(LLMs)が競技プログラミングにおいて一流の人間を上回っているとされています。本研究では、国際アルゴリズムコンテストでのメダリストたちの知識を基に、この主張を見直し、LLMsが人間の専門家とどのように異なるか、またどのような制限がまだ存在するかを検討します。私たちは、Codeforces、ICPC、およびIOIからの問題で構成され、継続的に更新されてデータ汚染の可能性を低減する新しいベンチマーク「LiveCodeBench Pro」を導入しました。オリンピックメダリストチームが各問題のアルゴリズムカテゴリを注釈し、失敗したモデル生成サブミッションの行単位分析を行いました。この新データとベンチマークを使用して調査した結果、最先端のモデルにもなお著しい制限があることが明らかになりました。外部ツールなしでは、最良のモデルでも中程度の難易度の問題で53%のpass@1しか達成できず、難しい問題では0%でした。これらの領域は依然として人間の専門家が優れていることを示しています。また、LLMsは実装中心の問題では成功していますが、繊細なアルゴリズム推論や複雑なケース分析には苦戦しており、しばしば自信満々に誤った説明を生成することがあります。高性能は主に実装精度とツール強化によってもたらされるものであり、優れた推論能力によるものではないようです。したがって、「LiveCodeBench Pro」は人間の大師匠レベルとの大きなギャップを浮き彫りにするとともに、コード中心のLLM推論における今後の改善に向けて詳細な診断情報を提供します。