
摘要
近年来,大型语言模型(LLMs)在代码生成、问题求解与推理等多种任务中展现出卓越的能力。现有评估基准通常将各项任务孤立评估,然而,LLMs在理解叙述性任务、识别潜在问题并生成相应代码解决方案方面的能力,仍缺乏系统性探索。为填补这一空白,我们提出了PECC——一个基于《Advent of Code》(AoC)与Project Euler挑战构建的新型基准,包含2396个问题。与传统基准不同,PECC要求LLMs能够解析嵌入自然语言叙述中的问题,提取任务需求,并生成可执行的代码。本数据集的一个关键特征在于,其采用基于对话的自然语言提示方式,引入了真实场景中常见的指令模糊性,从而提升了评估的复杂性。实验结果表明,模型在叙述性问题与中性问题上的表现存在显著差异:以GPT-3.5-Turbo为例,其在AoC挑战中通过率为50%,而在基于数学的Project Euler子集上仅达到8%。通过系统探测LLMs能力的边界,本基准为评估和监测LLMs作为通用问题求解器的后续发展提供了有力框架。