
摘要
本文提出了一种名为TEVR的语音识别模型,该模型旨在最小化标记熵(token entropy)相对于语言模型的变化。这一设计充分利用了以下事实:若语言模型本身能够可靠且准确地预测某个标记,则声学模型在识别该标记时无需具备同等高的准确性。我们训练了参数量达9亿的德语自动语音识别(ASR)模型,并在CommonVoice德语数据集上取得了3.64%的词错误率(Word Error Rate, WER),该结果相较于已有报道的最佳性能,实现了相对16.89%的词错误率降低,表现出极强的竞争力。我们期望通过向社区公开完整的训练好的语音识别系统,未来能够推动实现保护用户隐私的离线虚拟助手。