HyperAI超神经

Parakeet-tdt-0.6b-v2 语音识别

GitHub
GitHub Stars

一、教程简介

该教程算力资源采用单卡 RTX 4090,模型仅支持英语语音识别。

parakeet-tdt-0.6b-v2 是由 NVIDIA NeMo 于 2025 年 5 月 1 日推出的一款 6 亿参数的高性能自动语音识别(ASR)模型,属于 Parakeet 系列的最新版本。该模型基于 FastConformer 编码器架构和 TDT 解码器,能够一次高效转录长达 24 分钟的英语音频片段。该模型专注于高精度、低延迟的英语语音转录任务,适用于实时英语语音转文本场景(如客服对话、会议记录、语音助手等)。相关论文成果为「Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition」。

二、运行步骤

1. 启动容器

若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 1-2 分钟后刷新页面。

2. 使用演示

使用 Safari 浏览器时,音频可能无法直接播放。

该教程除了支持上传语音文件外,还支持语音输入。

识别结果可保存为 CSV 文件

三、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

项目支持

感谢 Github 用户 SuperYang  对本教程的部署。