HyperAI超神经

截至2025年11月21日，Open ASR Leaderboard已收录超过60个开源与闭源语音识别模型，来自18家机构，覆盖11个数据集。该榜单正成为评估语音转写（ASR）模型在准确性与效率方面表现的重要标准。随着ASR模型数量激增——目前Hugging Face平台已有150个Audio-Text-to-Text模型和2.7万个ASR模型，选择适合特定场景的模型变得愈发复杂。传统基准多聚焦于短时英语转写（<30秒），但忽视了多语言支持和长时音频处理等关键任务。为此，Open ASR Leaderboard新增了多语言与长时音频转写两个赛道，推动更全面的评估。主要发现如下： Conformer编码器 + LLM解码器组合表现领先当前英语转写准确率最高的模型普遍采用Conformer编码器与大语言模型（LLM）解码器的组合。例如NVIDIA的Canary-Qwen-2.5B、IBM的Granite-Speech-3.3-8B和微软的Phi-4-Multimodal-Instruct均取得最低词错误率（WER）。LLM的语义理解能力显著提升了转写质量。NVIDIA还推出了2倍加速的Fast Conformer，用于其Canary和Parakeet系列模型。速度与准确率的权衡尽管LLM解码器准确率高，但推理速度较慢。效率以逆实时因子（RTFx）衡量，数值越高越优。相比之下，CTC和TDT解码器可实现10至100倍的吞吐量提升，虽略有误差增加，但更适合会议、讲座、播客等长时音频的实时或批量处理。多语言能力：通用与专精的取舍 OpenAI的Whisper Large v3仍是多语言基准，支持99种语言。但经微调或蒸馏的版本（如Distil-Whisper、CrisperWhisper）在纯英语任务中表现更优，说明针对性优化能提升专精能力。然而，专注英语常以牺牲多语言覆盖为代价。自监督模型如Meta的MMS和Omnilingual ASR虽支持超1000种语言，但准确率仍落后于语言专用模型。长时音频转写仍是闭源模型优势领域在会议、讲座等长音频场景中，闭源系统仍领先，可能得益于领域微调、分块策略和生产级优化。开源模型中，Whisper Large v3表现最佳。但若追求速度，NVIDIA的Parakeet CTC 1.1B模型以RTFx达2793.75遥遥领先，仅略高0.25 WER（6.68 vs 6.43），显示CTC架构在长时处理中的巨大潜力。未来，Open ASR Leaderboard计划扩展至更多语言，并鼓励社区通过GitHub提交新模型与数据集。同时，区域性榜单如阿拉伯语ASR、俄语ASR等也正推动小语种ASR发展。 ASR技术日新月异，Open ASR Leaderboard将持续作为透明、开放、社区驱动的评估平台，助力全球研究者与开发者共同推进语音智能进步。欢迎贡献模型与数据，前往GitHub提交PR。

相关链接

相关链接

相关链接

小样本生物医学研究新突破，德国团队基于生成式 AI 模型实现数据增强，或减少 30-50% 实验动物用量

小样本生物医学研究新突破，德国团队基于生成式 AI 模型实现数据增强，或减少 30-50% 实验动物用量

Command Palette

开放自动语音识别排行榜重磅升级：多语言与长音频赛道引领技术新趋势

相关链接

Command Palette

开放自动语音识别排行榜重磅升级：多语言与长音频赛道引领技术新趋势

相关链接

Command Palette

开放自动语音识别排行榜重磅升级：多语言与长音频赛道引领技术新趋势

相关链接

小样本生物医学研究新突破，德国团队基于生成式 AI 模型实现数据增强，或减少 30-50% 实验动物用量

小样本生物医学研究新突破，德国团队基于生成式 AI 模型实现数据增强，或减少 30-50% 实验动物用量