
要約
近年、大規模言語モデル(LLM)の進展により、コード生成、問題解決、推論といった多様なタスクにおいて優れた能力が示されている。既存のベンチマークは各タスクを孤立して評価しているが、LLMが物語形式の問題を理解し、背後にある課題を特定した上で適切なコード解決策を生成する能力については、依然として十分に検証されていない。このギャップを埋めるために、我々は Advent of Code(AoC)および Project Euler の課題を基にした新たなベンチマーク「PECC」を提案する。本ベンチマークには2396の問題が含まれており、従来のベンチマークとは異なり、LLMが物語的な文脈に埋め込まれた問題を解釈し、要件を抽出し、実行可能なコードを生成する能力を評価する。本データセットの特徴の一つは、チャットベースの評価において自然言語によるプロンプトがもたらす複雑性であり、これは現実世界における指示の曖昧性を模倣している。実験結果から、物語形式の問題と中立的な問題との間でモデルの性能に差が見られ、特にGPT-3.5-TurboはAoCの課題では50%の問題を正解したが、Project Eulerの数学ベースの問題セットではわずか8%にとどまった。本ベンチマークを通じてLLMの限界を検証することで、今後のLLMが汎用的な問題解決者として進化する過程を監視・評価するためのフレームワークを提供する。