HyperAIHyperAI

Command Palette

Search for a command to run...

PECC:问题提取与编码挑战

Patrick Haller Jonas Golde Alan Akbik

摘要

近年来,大型语言模型(LLMs)在代码生成、问题求解与推理等多种任务中展现出卓越的能力。现有评估基准通常将各项任务孤立评估,然而,LLMs在理解叙述性任务、识别潜在问题并生成相应代码解决方案方面的能力,仍缺乏系统性探索。为填补这一空白,我们提出了PECC——一个基于《Advent of Code》(AoC)与Project Euler挑战构建的新型基准,包含2396个问题。与传统基准不同,PECC要求LLMs能够解析嵌入自然语言叙述中的问题,提取任务需求,并生成可执行的代码。本数据集的一个关键特征在于,其采用基于对话的自然语言提示方式,引入了真实场景中常见的指令模糊性,从而提升了评估的复杂性。实验结果表明,模型在叙述性问题与中性问题上的表现存在显著差异:以GPT-3.5-Turbo为例,其在AoC挑战中通过率为50%,而在基于数学的Project Euler子集上仅达到8%。通过系统探测LLMs能力的边界,本基准为评估和监测LLMs作为通用问题求解器的后续发展提供了有力框架。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供