摘要

BigCode项目是一项专注于大型代码语言模型（Code LLMs）负责任发展的开源科学协作计划，推出了StarCoder2模型。该项目与Software Heritage（SWH）合作，基于其源代码档案库所构建的数字公共知识库，构建了The Stack v2数据集。在涵盖619种编程语言的SWH代码仓库基础上，我们还精心筛选了其他高质量数据源，包括GitHub拉取请求（pull requests）、Kaggle笔记本以及代码文档等。由此构建的训练数据集规模是首个StarCoder数据集的4倍。我们使用3.3万亿至4.3万亿个标记（tokens）对StarCoder2系列模型（参数量分别为3B、7B和15B）进行了训练，并在一套全面的Code LLM基准测试中对其性能进行了系统评估。结果表明，我们的小型模型StarCoder2-3B在多数基准测试中优于同规模的其他Code LLM，甚至超越了StarCoderBase-15B模型。而我们的大型模型StarCoder2-15B在同类规模模型中表现显著领先，其性能可与参数量超过其两倍的CodeLlama-34B相媲美，甚至在部分任务上实现超越。尽管DeepSeekCoder-33B在高资源语言的代码补全任务中表现最佳，但我们在数学推理与代码推理基准测试，以及多个低资源语言任务上发现，StarCoder2-15B的表现仍优于该模型。为促进开放与透明，我们已将模型权重以OpenRAIL许可证发布，并通过公开Software Heritage持久标识符（SWHIDs）的方式，完整披露训练数据来源，确保训练数据的可追溯性与透明度。

源 PDF