HyperAIHyperAI

Command Palette

Search for a command to run...

TEVR:通过令牌熵方差缩减提升语音识别性能

Hajo Nils Krabbenhöft Erhardt Barth

摘要

本文提出了一种名为TEVR的语音识别模型,该模型旨在最小化标记熵(token entropy)相对于语言模型的变化。这一设计充分利用了以下事实:若语言模型本身能够可靠且准确地预测某个标记,则声学模型在识别该标记时无需具备同等高的准确性。我们训练了参数量达9亿的德语自动语音识别(ASR)模型,并在CommonVoice德语数据集上取得了3.64%的词错误率(Word Error Rate, WER),该结果相较于已有报道的最佳性能,实现了相对16.89%的词错误率降低,表现出极强的竞争力。我们期望通过向社区公开完整的训练好的语音识别系统,未来能够推动实现保护用户隐私的离线虚拟助手。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供