Mistral 推出首个开源音频模型 Voxtral,为企业提供高性价比语音智能解决方案
法国人工智能初创公司Mistral于本周二发布了其首个音频模型家族Voxtral,旨在为企业提供一种开放、实惠、高效的语音智能解决方案。Mistral希望通过推出这款开放源代码的音频模型,挑战那些封闭的商业系统的主导地位。 Voxtral的亮点在于它能够在实际生产环境中实现“真正可用的语音智能”。这不仅意味着它可以低成本地完成高质量的语音转文字工作,还能够理解语音内容,生成摘要,执行实时动作如调用API或运行函数。与市场上其他解决方案相比,Voxtral的性价比优势显著,价格不到同类产品的二分之一。 该产品提供了两个主要版本的“语音理解模型”。其中,Voxtral Small拥有240亿参数,适用于大规模生产环境的部署,性能可与ElevenLabs Scribe、GPT-40-mini以及Gemini 2.5 Flash媲美。另一个版本Voxtral Mini则有30亿参数,更适合本地和边缘设备的使用。此外,Mistral还推出了一个特别优化过的超低成本版本Voxtral Mini Transcribe,专为纯语音转文字应用设计,承诺在价格仅为OpenAI Whisper一半的情况下,依然保持更佳的表现。 Voxtral支持多种语言,包括英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语以及意大利语,用户可以在Hugging Face平台上免费下载API或通过Mistral的聊天机器人Le Chat来测试这些模型。根据Mistral的说法,将API集成到应用程序中的成本起点非常低,只需要每分钟0.001美元。 此次Voxtral的发布距Mistral上个月推出其首套逐步解决问题的推理模型Magistral仅仅一个月时间。Magistral的目标是通过改进的可靠性解决复杂问题。Mistral作为欧洲最领先的人工智能公司之一,长期以来一直致力于推动开源AI模型的发展。此前TechCrunch报道,Mistral正在与阿联酋的MGX基金等投资者洽谈,计划筹集高达10亿美元的资金。 业内人士认为,Mistral在开源AI领域的这一新举措将进一步降低企业在实施语音技术时的成本门槛,增强其灵活性和自主性,同时也可能会加速整个行业向更开放的方向发展。Mistral此举显示了其在技术创新和商业模式上的领先地位,有望为企业提供更多的选择,推动行业的健康发展。