GLM-ASR-Nano 智谱语音识别
一、教程简介

GLM-ASR-Nano-2512 是智谱 AI(ZhipuAI)于 2024 年 12 月推出的开源语音识别模型,参数规模为 15 亿(1.5B)。它专为应对现实世界的复杂场景而设计,虽然体积小巧,但在多项基准测试中表现优于 OpenAI Whisper V3 。该模型不仅支持标准普通话和英语,更在方言识别和低语 / 微声场景下表现出惊人的鲁棒性。作为一款端侧友好的高性能模型,它采用了先进的训练策略,能够精准捕捉极低音量的语音细节,填补了传统 ASR 模型在方言和复杂声学环境下的空白。例如在嘈杂的会议记录或隐私保护的低语交流中,GLM-ASR-Nano 能够提供极其准确的转写结果。
本教程使用 Gradio + Transformers 部署 GLM-ASR-Nano-2512 作为演示,算力资源采用 单卡 RTX 5090 。
二、项目示例

三、运行步骤
1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后,即可上传音频或录音进行识别!
若显示 Bad Gateway ,这表示模型正在加载中,请等待约 2-3 分钟后刷新页面即可。
使用 Safari 浏览器时,音频可能无法直接播放,需要下载后进行播放。

四、交流探讨
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息
@misc{glm-asr-nano-2512,
title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model},
author={ZhipuAI},
year={2024},
publisher={Hugging Face},
url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}