HyperAIHyperAI

Command Palette

Search for a command to run...

StarCoder 2 与 The Stack v2:下一代模型

摘要

BigCode项目是一项专注于大型代码语言模型(Code LLMs)负责任发展的开源科学协作计划,推出了StarCoder2模型。该项目与Software Heritage(SWH)合作,基于其源代码档案库所构建的数字公共知识库,构建了The Stack v2数据集。在涵盖619种编程语言的SWH代码仓库基础上,我们还精心筛选了其他高质量数据源,包括GitHub拉取请求(pull requests)、Kaggle笔记本以及代码文档等。由此构建的训练数据集规模是首个StarCoder数据集的4倍。我们使用3.3万亿至4.3万亿个标记(tokens)对StarCoder2系列模型(参数量分别为3B、7B和15B)进行了训练,并在一套全面的Code LLM基准测试中对其性能进行了系统评估。结果表明,我们的小型模型StarCoder2-3B在多数基准测试中优于同规模的其他Code LLM,甚至超越了StarCoderBase-15B模型。而我们的大型模型StarCoder2-15B在同类规模模型中表现显著领先,其性能可与参数量超过其两倍的CodeLlama-34B相媲美,甚至在部分任务上实现超越。尽管DeepSeekCoder-33B在高资源语言的代码补全任务中表现最佳,但我们在数学推理与代码推理基准测试,以及多个低资源语言任务上发现,StarCoder2-15B的表现仍优于该模型。为促进开放与透明,我们已将模型权重以OpenRAIL许可证发布,并通过公开Software Heritage持久标识符(SWHIDs)的方式,完整披露训练数据来源,确保训练数据的可追溯性与透明度。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供