Mistral AI 推出 Codestral Embed：超越竞品的高性能代码嵌入模型

Mistral AI近期发布了一款名为Codestral Embed的新模型，这是首款专门针对代码的嵌入模型。该模型在处理实际代码数据的检索任务时表现出色，远超目前市场上的其他领先代码嵌入模型，如Voyage Code 3、Cohere Embed v4.0和OpenAI的大型嵌入模型。主要性能及特点 Codestral Embed支持不同维度和精度的输出，可以根据需求调整存储成本与检索质量之间的平衡。即使在256维度和int8精度下，它仍然优于竞争对手的模型。这些嵌入向量的维度按照相关性排序，可以通过截取前n个维度来平滑地调整质量和成本之间的权衡。性能测试为了验证Codestral Embed的性能，Mistral AI团队进行了多项基准测试。测试涵盖多个类别： - SWE-Bench lite: 基于真实的GitHub问题及其修复，用于评估代码代理在增强生成中的表现。 - CodeSearchNet Code -> Code: 根据GitHub的实际代码片段，检索出现在相同上下文中的代码。 - CodeSearchNet doc2code: 根据实际GitHub代码的文档字符串，检索相应的代码。 - CommitPack: 根据GitHub的实际提交消息，检索对应的修改文件。 - Spider 和 WikiSQL: 根据查询语句检索SQL代码。 - DM code contests: 匹配编程竞赛网站的问题描述和正确解法（包括不正确的解法）。 - APPS 和 CodeChef: 类似功能，匹配编程竞赛网站的问题描述和解法。 - MBPP+: 匹配基本Python程序的问题描述和解法。 - DS 1000: 匹配数据科学问题和实现方法。在这几个类别的测试中，Codestral Embed均取得了优异的成绩，平均得分和宏平均得分均超过竞争对手的模型。应用场景增强生成的检索：Codestral Embed能够快速高效地检索代码上下文，适用于代码补全、编辑或解释任务，特别适合AI辅助软件开发环境。语义代码搜索：通过自然语言或代码查询，精确检索相关的代码片段，适用于开发者工具、文档系统和协同开发平台。相似性搜索和重复检测：识别几乎相同的或功能相似的代码段，即便在词汇上有很大差异，有助于代码复用的管理和许可政策的执行。语义聚类和代码分析：根据功能或结构对代码进行无监督分组，可用于分析仓库组成、识别新兴架构模式，以及自动生成文档和分类系统。可用性 Codestral Embed已通过API对外发布，API名称为codestral-embed-2505，价格为每百万tokens 0.15美元。对于批量处理任务，可享受50%的折扣。企业级本地部署方案需与Mistral AI的应用AI团队联系。使用建议对于检索应用场景，建议将数据切分成3000字符的块，每个块之间重叠1000字符。虽然可以使用最大8192 tokens的完整上下文，但较大的块通常会降低检索系统的性能。具体操作方法可参考Mistral AI提供的文档和实战案例。行业评价业内专家认为，Codestral Embed的推出标志着代码嵌入领域的重大进步，特别是在解决大规模代码库的检索和理解问题方面。Mistral AI在自然语言处理和AI领域的深厚积累为其在这一领域的领先地位奠定了基础。该公司成立于2018年，致力于为开发者和企业提供高性能的AI解决方案，目前已成为代码辅助领域的佼佼者。

Mistral AI 推出 Codestral Embed：超越竞品的高性能代码嵌入模型

Related Links