HyperAI

Voxtral正式发布新一代语音转写模型Voxtral Transcribe 2，包含两款高性能模型：面向批量处理的Voxtral Mini Transcribe V2和专为实时应用设计的Voxtral Realtime。两款模型均具备行业领先的转写准确率、说话人分离能力和极低延迟，助力语音应用迈向新高度。 Voxtral Realtime采用创新的流式架构，支持音频边接收边转写，延迟可低至200毫秒以下，适用于语音助手、实时会议记录、远程教育等对响应速度要求极高的场景。在480毫秒延迟下，其词错误率（WER）仅比离线模型高出1%至2%，实现接近离线精度的实时体验。该模型为原生多语言设计，支持英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语共13种语言，参数量仅40亿，可高效运行于边缘设备，保障数据隐私与安全。模型权重已开源，采用Apache 2.0许可，发布于Hugging Face平台。 Voxtral Mini Transcribe V2在批量转写任务中表现卓越，FLEURS基准测试中平均词错误率低至约4%，成本仅为每分钟0.003美元，性价比远超GPT-4o mini、Gemini 2.5 Flash、Assembly Universal和Deepgram Nova等主流模型，且处理速度是ElevenLabs Scribe v2的三倍，成本仅为五分之一。该模型支持13种语言，具备精准说话人分离、词级时间戳、上下文偏置（可输入最多100个关键词引导识别专有名词或术语）等功能，适用于会议纪要、访谈分析、多角色通话处理等企业级场景。其在嘈杂环境（如工厂、客服中心）下仍保持高准确率，支持单次处理长达3小时的音频。 Voxtral还推出Mistral Studio中的音频体验平台，用户可直接上传音频文件（支持MP3、WAV、M4A、FLAC、OGG，单个文件最大1GB），实时测试转写效果，开启说话人分离、时间戳和上下文偏置功能，快速验证模型性能。两款模型均支持GDPR与HIPAA合规部署，可通过私有云或本地化方案保障数据安全。Voxtral Mini Transcribe V2现已通过API上线，定价0.003美元/分钟；Voxtral Realtime提供API服务（0.006美元/分钟）及开源版本。开发者可立即在Mistral Studio或Le Chat中体验。 Voxtral正积极招募语音AI人才，欢迎对构建前沿语音技术充满热情的开发者加入团队。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Voxtral实现声速语音转录，颠覆实时沟通体验

相关链接

Command Palette

Voxtral实现声速语音转录，颠覆实时沟通体验

相关链接

Command Palette

Voxtral实现声速语音转录，颠覆实时沟通体验

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟