Voxtral实现声速语音转录,颠覆实时沟通体验
Voxtral正式发布新一代语音转写模型Voxtral Transcribe 2,包含两款高性能模型:面向批量处理的Voxtral Mini Transcribe V2和专为实时应用设计的Voxtral Realtime。两款模型均具备行业领先的转写准确率、说话人分离能力和极低延迟,助力语音应用迈向新高度。 Voxtral Realtime采用创新的流式架构,支持音频边接收边转写,延迟可低至200毫秒以下,适用于语音助手、实时会议记录、远程教育等对响应速度要求极高的场景。在480毫秒延迟下,其词错误率(WER)仅比离线模型高出1%至2%,实现接近离线精度的实时体验。该模型为原生多语言设计,支持英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语共13种语言,参数量仅40亿,可高效运行于边缘设备,保障数据隐私与安全。模型权重已开源,采用Apache 2.0许可,发布于Hugging Face平台。 Voxtral Mini Transcribe V2在批量转写任务中表现卓越,FLEURS基准测试中平均词错误率低至约4%,成本仅为每分钟0.003美元,性价比远超GPT-4o mini、Gemini 2.5 Flash、Assembly Universal和Deepgram Nova等主流模型,且处理速度是ElevenLabs Scribe v2的三倍,成本仅为五分之一。该模型支持13种语言,具备精准说话人分离、词级时间戳、上下文偏置(可输入最多100个关键词引导识别专有名词或术语)等功能,适用于会议纪要、访谈分析、多角色通话处理等企业级场景。其在嘈杂环境(如工厂、客服中心)下仍保持高准确率,支持单次处理长达3小时的音频。 Voxtral还推出Mistral Studio中的音频体验平台,用户可直接上传音频文件(支持MP3、WAV、M4A、FLAC、OGG,单个文件最大1GB),实时测试转写效果,开启说话人分离、时间戳和上下文偏置功能,快速验证模型性能。 两款模型均支持GDPR与HIPAA合规部署,可通过私有云或本地化方案保障数据安全。Voxtral Mini Transcribe V2现已通过API上线,定价0.003美元/分钟;Voxtral Realtime提供API服务(0.006美元/分钟)及开源版本。开发者可立即在Mistral Studio或Le Chat中体验。 Voxtral正积极招募语音AI人才,欢迎对构建前沿语音技术充满热情的开发者加入团队。
