13 天前

WizardCoder:通过Evol-Instruct赋能代码大语言模型

Luo, Ziyang, Xu, Can, Zhao, Pu, Sun, Qingfeng, Geng, Xiubo, Hu, Wenxiang, Tao, Chongyang, Ma, Jing, Lin, Qingwei, Jiang, Daxin
WizardCoder:通过Evol-Instruct赋能代码大语言模型
摘要

代码大语言模型(Code LLMs),例如 StarCoder,在代码相关任务中已展现出卓越的性能。然而,大多数现有模型仅在大量原始代码数据上进行预训练,而未经过指令微调。本文提出 WizardCoder,通过将 Evol-Instruct 方法适配至代码领域,为代码大语言模型引入了复杂的指令微调能力。在四个主流代码生成基准测试——HumanEval、HumanEval+、MBPP 和 DS-1000 上进行的全面实验表明,本模型展现出卓越的能力,显著超越所有其他开源代码大语言模型。此外,该模型在 HumanEval 和 HumanEval+ 上的表现甚至优于目前最大的闭源大语言模型,包括 Anthropic 的 Claude 与 Google 的 Bard。本文的代码、模型权重及数据均已公开,可访问 https://github.com/nlpxucan/WizardLM 获取。

WizardCoder:通过Evol-Instruct赋能代码大语言模型 | 最新论文 | HyperAI超神经