HyperAI超神经
Back to Headlines

Mistral AI 推出 Codestral Embed:超越竞品的高性能代码嵌入模型

a day ago

Mistral AI近期发布了一款名为Codestral Embed的新模型,这是首款专门针对代码的嵌入模型。该模型在处理实际代码数据的检索任务时表现出色,远超目前市场上的其他领先代码嵌入模型,如Voyage Code 3、Cohere Embed v4.0和OpenAI的大型嵌入模型。 主要性能及特点 Codestral Embed支持不同维度和精度的输出,可以根据需求调整存储成本与检索质量之间的平衡。即使在256维度和int8精度下,它仍然优于竞争对手的模型。这些嵌入向量的维度按照相关性排序,可以通过截取前n个维度来平滑地调整质量和成本之间的权衡。 性能测试 为了验证Codestral Embed的性能,Mistral AI团队进行了多项基准测试。测试涵盖多个类别: - SWE-Bench lite: 基于真实的GitHub问题及其修复,用于评估代码代理在增强生成中的表现。 - CodeSearchNet Code -> Code: 根据GitHub的实际代码片段,检索出现在相同上下文中的代码。 - CodeSearchNet doc2code: 根据实际GitHub代码的文档字符串,检索相应的代码。 - CommitPack: 根据GitHub的实际提交消息,检索对应的修改文件。 - Spider 和 WikiSQL: 根据查询语句检索SQL代码。 - DM code contests: 匹配编程竞赛网站的问题描述和正确解法(包括不正确的解法)。 - APPS 和 CodeChef: 类似功能,匹配编程竞赛网站的问题描述和解法。 - MBPP+: 匹配基本Python程序的问题描述和解法。 - DS 1000: 匹配数据科学问题和实现方法。 在这几个类别的测试中,Codestral Embed均取得了优异的成绩,平均得分和宏平均得分均超过竞争对手的模型。 应用场景 增强生成的检索:Codestral Embed能够快速高效地检索代码上下文,适用于代码补全、编辑或解释任务,特别适合AI辅助软件开发环境。 语义代码搜索:通过自然语言或代码查询,精确检索相关的代码片段,适用于开发者工具、文档系统和协同开发平台。 相似性搜索和重复检测:识别几乎相同的或功能相似的代码段,即便在词汇上有很大差异,有助于代码复用的管理和许可政策的执行。 语义聚类和代码分析:根据功能或结构对代码进行无监督分组,可用于分析仓库组成、识别新兴架构模式,以及自动生成文档和分类系统。 可用性 Codestral Embed已通过API对外发布,API名称为codestral-embed-2505,价格为每百万tokens 0.15美元。对于批量处理任务,可享受50%的折扣。企业级本地部署方案需与Mistral AI的应用AI团队联系。 使用建议 对于检索应用场景,建议将数据切分成3000字符的块,每个块之间重叠1000字符。虽然可以使用最大8192 tokens的完整上下文,但较大的块通常会降低检索系统的性能。具体操作方法可参考Mistral AI提供的文档和实战案例。 行业评价 业内专家认为,Codestral Embed的推出标志着代码嵌入领域的重大进步,特别是在解决大规模代码库的检索和理解问题方面。Mistral AI在自然语言处理和AI领域的深厚积累为其在这一领域的领先地位奠定了基础。该公司成立于2018年,致力于为开发者和企业提供高性能的AI解决方案,目前已成为代码辅助领域的佼佼者。

Related Links