Mistral AI 推出 Devstral:专为软件开发任务优化的轻量级代理型 LLM
今天,Mistral AI 和 All Hands AI 发布了名为 Devstral 的全新大型语言模型(LLM),专为软件工程任务设计。Devstral 在处理复杂的实际世界问题方面表现出色,在 SWE-Bench Verified 基准测试中取得了 46.8% 的成绩,远远领先于其他开源模型。此外,它还超过了多个更大型的闭源模型,例如 GPT-4.1-mini 和 Deepseek-V3-0324 等。 Devstral 的特点 解决现实世界软件开发问题 传统的 LLM 虽然擅长编写独立的函数或代码补全,但难以应对复杂的实际软件工程项目。这类项目通常需要在庞大的代码库中理解和定位代码,识别不同组件之间的关系,并找出复杂功能中的细微错误。Devstral 正是针对这些问题进行了优化训练。它通过解决真实的 GitHub 问题来学习和提高,能够有效地运行在各种代码代理框架上,如 OpenHands 和 SWE-Agent,这些框架定义了模型与测试用例之间的接口。 性能优势 根据 SWE-Bench Verified 基准测试,Devstral 的成绩达到了 46.8%,显著优于之前的开源模型。在相同测试框架下的比较中,Devstral 超过了更大规模的模型,包括 Deepseek-V3-0324 和 Qwen3 232B-A22B。此外,与闭源模型相比,Devstral 仍展示了卓越的性能,例如超过了 GPT-4.1-mini 超过 20 个百分点。 灵活性强 Devstral 体积较小,可以在单个 RTX 4090 或配备 32GB 内存的 Mac 上运行,非常适合本地部署和设备上的使用。开放平台如 OpenHands 可以让它与本地代码库交互,快速解决问题。除了本地使用,Devstral 还适用于企业内的隐私敏感代码库,特别是那些有严格安全和合规要求的项目。此外,如果开发者正在构建或使用一个具备代理功能的编码环境,Devstral 是一个很好的选择,可以集成到模型选择器中。 提供方式 Devstral 以免费的形式发布,采用 Apache 2.0 许可证。用户可以在 HuggingFace、Ollama、Kaggle、Unsloth 和 LM Studio 上下载模型,从今天开始即可获取。对于希望通过 API 使用 Devstral 的用户,它已被整合到 Mistral API 中,名称为 devstral-small-2505,其价格与 Mistral Small 3.1 相同,即每百万输入令牌 0.1 美元,每百万输出令牌 0.3 美元。企业用户如果需要私有代码库上的微调或其他高级定制,可以联系 Mistral AI 的应用 AI 团队。 未来发展 Devstral 目前是一个研究预览版,欢迎用户提供反馈。Mistral AI 正在努力开发一个更大的代理编码模型,并计划在未来几周内推出。感兴趣的团队可以通过联系 Mistral AI 来讨论如何应用 Devstral,以及他们提供的其他模型、产品和解决方案。 行业评价和公司背景 Mistral AI 作为一家新兴的技术公司,致力于开发高效且实用的大型语言模型。业内人士对 Devstral 的发布给予了高度评价,认为它将大幅提升开发者的生产力和代码质量,尤其是在处理复杂项目时。All Hands AI 是一家专注于 AI 代理工具的开发公司,此次合作使得 Devstral 在实际应用中展现出更强的综合能力。
