HyperAI超神经

摘要

本文提出了一种名为TEVR的语音识别模型，该模型旨在最小化标记熵（token entropy）相对于语言模型的变化。这一设计充分利用了以下事实：若语言模型本身能够可靠且准确地预测某个标记，则声学模型在识别该标记时无需具备同等高的准确性。我们训练了参数量达9亿的德语自动语音识别（ASR）模型，并在CommonVoice德语数据集上取得了3.64%的词错误率（Word Error Rate, WER），该结果相较于已有报道的最佳性能，实现了相对16.89%的词错误率降低，表现出极强的竞争力。我们期望通过向社区公开完整的训练好的语音识别系统，未来能够推动实现保护用户隐私的离线虚拟助手。

摘要

Hajo Nils Krabbenhöft Erhardt Barth

摘要

用 AI 构建 AI

HyperAI Newsletters

Hajo Nils Krabbenhöft Erhardt Barth

摘要

用 AI 构建 AI

HyperAI Newsletters

Hajo Nils Krabbenhöft Erhardt Barth

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TEVR：通过令牌熵方差缩减提升语音识别性能

Hajo Nils Krabbenhöft Erhardt Barth

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TEVR：通过令牌熵方差缩减提升语音识别性能

Hajo Nils Krabbenhöft Erhardt Barth

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

TEVR：通过令牌熵方差缩减提升语音识别性能

Hajo Nils Krabbenhöft Erhardt Barth

摘要

用 AI 构建 AI

HyperAI Newsletters