开放自动语音识别排行榜重磅升级:多语言与长音频赛道引领技术新趋势
截至2025年11月21日,Open ASR Leaderboard已收录超过60个开源与闭源语音识别模型,来自18家机构,覆盖11个数据集。该榜单正成为评估语音转写(ASR)模型在准确性与效率方面表现的重要标准。随着ASR模型数量激增——目前Hugging Face平台已有150个Audio-Text-to-Text模型和2.7万个ASR模型,选择适合特定场景的模型变得愈发复杂。 传统基准多聚焦于短时英语转写(<30秒),但忽视了多语言支持和长时音频处理等关键任务。为此,Open ASR Leaderboard新增了多语言与长时音频转写两个赛道,推动更全面的评估。 主要发现如下: Conformer编码器 + LLM解码器组合表现领先 当前英语转写准确率最高的模型普遍采用Conformer编码器与大语言模型(LLM)解码器的组合。例如NVIDIA的Canary-Qwen-2.5B、IBM的Granite-Speech-3.3-8B和微软的Phi-4-Multimodal-Instruct均取得最低词错误率(WER)。LLM的语义理解能力显著提升了转写质量。NVIDIA还推出了2倍加速的Fast Conformer,用于其Canary和Parakeet系列模型。 速度与准确率的权衡 尽管LLM解码器准确率高,但推理速度较慢。效率以逆实时因子(RTFx)衡量,数值越高越优。相比之下,CTC和TDT解码器可实现10至100倍的吞吐量提升,虽略有误差增加,但更适合会议、讲座、播客等长时音频的实时或批量处理。 多语言能力:通用与专精的取舍 OpenAI的Whisper Large v3仍是多语言基准,支持99种语言。但经微调或蒸馏的版本(如Distil-Whisper、CrisperWhisper)在纯英语任务中表现更优,说明针对性优化能提升专精能力。然而,专注英语常以牺牲多语言覆盖为代价。自监督模型如Meta的MMS和Omnilingual ASR虽支持超1000种语言,但准确率仍落后于语言专用模型。 长时音频转写仍是闭源模型优势领域 在会议、讲座等长音频场景中,闭源系统仍领先,可能得益于领域微调、分块策略和生产级优化。开源模型中,Whisper Large v3表现最佳。但若追求速度,NVIDIA的Parakeet CTC 1.1B模型以RTFx达2793.75遥遥领先,仅略高0.25 WER(6.68 vs 6.43),显示CTC架构在长时处理中的巨大潜力。 未来,Open ASR Leaderboard计划扩展至更多语言,并鼓励社区通过GitHub提交新模型与数据集。同时,区域性榜单如阿拉伯语ASR、俄语ASR等也正推动小语种ASR发展。 ASR技术日新月异,Open ASR Leaderboard将持续作为透明、开放、社区驱动的评估平台,助力全球研究者与开发者共同推进语音智能进步。欢迎贡献模型与数据,前往GitHub提交PR。
