13 天前

Code Llama:代码领域的开源基础模型

Baptiste Rozière, Jonas Gehring, Fabian Gloeckle, Sten Sootla, Itai Gat, Xiaoqing Ellen Tan, Yossi Adi, Jingyu Liu, Romain Sauvestre, Tal Remez, Jérémy Rapin, Artyom Kozhevnikov, Ivan Evtimov, Joanna Bitton, Manish Bhatt, Cristian Canton Ferrer, Aaron Grattafiori, Wenhan Xiong, Alexandre Défossez, Jade Copet, Faisal Azhar, Hugo Touvron, Louis Martin, Nicolas Usunier, Thomas Scialom, Gabriel Synnaeve
Code Llama:代码领域的开源基础模型
摘要

我们发布了 Code Llama,这是一系列基于 Llama 2 的大型代码语言模型,具备当前开源模型中的顶尖性能,支持代码补全(infilling)能力、大输入上下文支持,以及在编程任务上无需微调即可遵循指令的零样本(zero-shot)能力。为满足广泛的应用需求,我们提供了多种版本:基础模型(Code Llama)、专用于 Python 的模型(Code Llama - Python),以及指令遵循型模型(Code Llama - Instruct),每种均提供 7B、13B、34B 和 70B 参数规模的版本。所有模型均在 16k token 的序列长度上进行训练,并在长达 100k token 的输入上展现出显著性能提升。其中,7B、13B 和 70B 参数规模的 Code Llama 及 Code Llama - Instruct 版本支持基于上下文内容的代码补全(infilling)功能。在多个代码基准测试中,Code Llama 达到了当前开源模型的最先进水平,在 HumanEval 和 MBPP 基准上的得分分别高达 67% 和 65%。尤为突出的是,Code Llama - Python 7B 在 HumanEval 和 MBPP 上的表现超越了 Llama 2 70B 模型,而我们所有模型在 MultiPL-E 基准上均优于所有其他公开可用的模型。Code Llama 采用宽松许可协议发布,允许用于研究及商业用途。

Code Llama:代码领域的开源基础模型 | 最新论文 | HyperAI超神经