HyperAIHyperAI

Command Palette

Search for a command to run...

控制台

GLM-ASR-Nano 智谱语音识别

一、教程简介

GitHub Stars

GLM-ASR-Nano-2512 是智谱 AI(ZhipuAI)于 2024 年 12 月推出的开源语音识别模型,参数规模为 15 亿(1.5B)。它专为应对现实世界的复杂场景而设计,虽然体积小巧,但在多项基准测试中表现优于 OpenAI Whisper V3 。该模型不仅支持标准普通话和英语,更在方言识别和低语 / 微声场景下表现出惊人的鲁棒性。作为一款端侧友好的高性能模型,它采用了先进的训练策略,能够精准捕捉极低音量的语音细节,填补了传统 ASR 模型在方言和复杂声学环境下的空白。例如在嘈杂的会议记录或隐私保护的低语交流中,GLM-ASR-Nano 能够提供极其准确的转写结果。

本教程使用 Gradio + Transformers 部署 GLM-ASR-Nano-2512 作为演示,算力资源采用  单卡 RTX 5090  。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可上传音频或录音进行识别!

若显示 Bad Gateway ,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。

使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

四、交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

用 AI 构建 AI

从构思到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格加速您的 AI 开发。

AI 协同编码
可直接使用的 GPU
最佳价格

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供