12 天前
CloudEval-YAML:一种面向云配置生成的实用基准
Yifei Xu, Yuning Chen, Xumiao Zhang, Xianshang Lin, Pan Hu, Yunfei Ma, Songwu Lu, Wan Du, Zhuoqing Mao, Ennan Zhai, Dennis Cai

摘要
在云计算生态蓬勃发展以及基于大语言模型(LLM)的代码生成工具日益普及的背景下,针对云原生应用中的代码生成任务仍缺乏有效的基准评测体系。为应对这一需求,我们提出了 CloudEval-YAML——一个面向云配置生成的实用型基准测试数据集。CloudEval-YAML 通过聚焦 YAML 格式,解决了云原生工具中配置多样性的挑战,因为 YAML 已成为众多云原生工具的事实标准。该基准的构建充分考虑了实际应用需求:数据集包含由人工编写的、带有单元测试的实际场景问题,确保了任务的真实性和实用性。为进一步提升实用性,我们对问题表述进行了精炼、简洁化和中英双语化处理。整个数据集共包含 1011 个问题,完成这些任务预计需超过 1200 个人工工时。为提升评估过程的效率,我们构建了一个可扩展的评估平台,相较于单机运行,实现了高达 20 倍的加速效果。据我们所知,CloudEval-YAML 是首个专为云原生应用设计的手写问题数据集。我们对 12 个主流大语言模型进行了深入评估,不仅加深了对任务挑战与模型能力的理解,还提炼出一系列有效提升任务性能、降低使用成本的方法。