英伟达开源语音识别模型，ParaKeet-tdt-0.6b-v2 仅需 1 秒可转录 1 小时音频，精准识别劈柴哥演讲

1 年前

无论是在智能客服中实时理解用户意图，还是在会议记录、访谈整理、字幕生成等场景中识别多语速、多口音的音频，持续升级的使用需求对于语音识别技术提出更加苛刻的要求。例如，识别速度，使用成本，嘈杂环境下的准确率与稳定性等等。

面对上述挑战，英伟达近期开源了语音识别模型 ParaKeet-tdt-0.6b-v2，基于 FastConformer 架构以及英伟达自主研发的 TDT（TransducerDecoderTransformer）技术，实现了极致的推理效率，仅需 1 秒即可处理 60 分钟的音频内容，超越所有主流闭源模型。而且该模型专注于高精度、低延迟的英语语音转录任务，适用于实时英语语音转文本场景，轻松实现跨语言交流，令会议记录更流畅。

目前，「ParaKeet-tdt-0.6b-v2 语音识别」demo 已上线至 HyperAI 超神经官网的「教程」板块，点击下方链接即可体验一键部署教程

教程链接：

https://go.hyper.ai/SFu38

Demo 运行

1. 进入 hyper.ai 首页后，选择「教程」页面，并选择「ParaKeet-tdt-0.6b-v2 语音识别」，点击「在线运行此教程」。

2. 页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3. 选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，OpenBayes 平台提供了 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI 超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n