JetBrains 推出 Mellum:40 亿参数的 AI 编码模型,助力代码生成与研究
JetBrains 公司于周三在 AI 开发平台 Hugging Face 上发布了 Mellum,这是该公司首款面向公开发布的 AI 编码模型。Mellum 是一个专为代码补全设计的模型,拥有 40 亿个参数,训练数据量超过 4 万亿个 token(相当于大约 1200 万行代码)。JetBrains 希望通过 Mellum 提升开发者工具的功能,尤其是集成开发环境中的智能代码提示,同时支持 AI 辅助编码助手的研究、教育应用以及针对代码生成的调优实验。 Mellum 的训练数据集包括来自 GitHub 的许可开源代码和英文维基百科文章,整体训练耗时约 20 天,在 256 块 NVIDIA H200 GPU 集群上完成。虽然 Mellum 已经发布,但基础模型无法直接使用,需要进一步调优。JetBrains 提供了一些针对 Python 编程语言预调优的模型,但明确表示这些模型仅用于评估潜在能力,不适合生产环境。 随着 AI 生成代码的普及,它确实改变了许多软件开发的流程,但也带来了新的安全挑战。根据 2023 年末开发者安全平台 Snyk 的一项调查,超过 50% 的组织经常或偶尔会在 AI 生成的代码中遇到安全问题。JetBrains 承认,Mellum 可能会反映出现在公共代码库中的偏见,生成的代码可能与开源项目类似,并不一定“安全或无漏洞”。 尽管如此,JetBrains 表示这次发布只是一个开始,他们不追求模型的泛化能力,而是致力于提升其特定领域的功能。公司希望 Mellum 能激发更多有意义的实验、贡献和合作,即使只有一项也视为成功。 业内人士对 Mellum 的发布给予了高度关注。作为一家以开发优秀编程工具而闻名的公司,JetBrains 的这一举动被视为该领域的一个重要进展。Mellum 的开放性和灵活性为开发者社区提供了更多的可能性,尤其是在代码生成和辅助开发方面。然而,关于模型生成代码的安全性问题仍然是一些开发者和安全专家的担忧焦点。