HyperAI超神经

英伟达开源语音识别模型,ParaKeet-tdt-0.6b-v2 仅需 1 秒可转录 1 小时音频,精准识别劈柴哥演讲

特色图像

无论是在智能客服中实时理解用户意图,还是在会议记录、访谈整理、字幕生成等场景中识别多语速、多口音的音频,持续升级的使用需求对于语音识别技术提出更加苛刻的要求。例如,识别速度,使用成本,嘈杂环境下的准确率与稳定性等等。

面对上述挑战,英伟达近期开源了语音识别模型 ParaKeet-tdt-0.6b-v2,基于 FastConformer 架构以及英伟达自主研发的 TDT(TransducerDecoderTransformer)技术,实现了极致的推理效率,仅需 1 秒即可处理 60 分钟的音频内容,超越所有主流闭源模型。而且该模型专注于高精度、低延迟的英语语音转录任务,适用于实时英语语音转文本场景,轻松实现跨语言交流,令会议记录更流畅。

目前,「ParaKeet-tdt-0.6b-v2 语音识别」demo 已上线至 HyperAI 超神经官网的「教程」板块,点击下方链接即可体验一键部署教程

教程链接:

https://go.hyper.ai/SFu38

Demo 运行

1. 进入 hyper.ai 首页后,选择「教程」页面,并选择「ParaKeet-tdt-0.6b-v2 语音识别」,点击「在线运行此教程」。

2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3. 选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes  平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI 超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. 等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果演示

在「Upload Audio File」中上传音频文件,然后点击「Transcribe Uploaded File」识别。这里笔者上传了一段 Google I/O 主题演讲的音频,模型快速且准确地识别了出来。

语音识别的内容如下:

Hello everyone, good morning.

Welcome to Google.io.

I learned that today is the start of Gemini season.

Not really sure what the big deal is.

Every day is Gemini season here at Google.

A couple of weeks ago, Gemini completed Pokemon Blue.

此外,ParaKeet-tdt-0.6b-v2 还支持语音输入。点击「Microphone」,然后点击「录制」,录制完成后点击「Transcribe Uploaded File」识别。

以上就是 HyperAI 超神经本期推荐的实用教程啦,欢迎大家体验!

教程链接:

https://go.hyper.ai/SFu38