日期

6 个月前

组织

标签

音频识别

RTX 5090

许可证

Apache 2.0

GitHub

zai-org/GLM-ASR818

一、教程简介

GLM-ASR-Nano-2512 是智谱 AI（ZhipuAI）于 2024 年 12 月推出的开源语音识别模型，参数规模为 15 亿（1.5B）。它专为应对现实世界的复杂场景而设计，虽然体积小巧，但在多项基准测试中表现优于 OpenAI Whisper V3 。该模型不仅支持标准普通话和英语，更在方言识别和低语 / 微声场景下表现出惊人的鲁棒性。作为一款端侧友好的高性能模型，它采用了先进的训练策略，能够精准捕捉极低音量的语音细节，填补了传统 ASR 模型在方言和复杂声学环境下的空白。例如在嘈杂的会议记录或隐私保护的低语交流中，GLM-ASR-Nano 能够提供极其准确的转写结果。

本教程使用 Gradio + Transformers 部署 GLM-ASR-Nano-2512 作为演示，算力资源采用 单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可上传音频或录音进行识别！

若显示 Bad Gateway ，这表示模型正在加载中，请等待约 2-3 分钟后刷新页面即可。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

四、交流探讨

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓

引用信息

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

音频生成式 AI

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

6 个月前

组织

标签

音频识别

RTX 5090

许可证

Apache 2.0

GitHub

zai-org/GLM-ASR818

一、教程简介

本教程使用 Gradio + Transformers 部署 GLM-ASR-Nano-2512 作为演示，算力资源采用 单卡 RTX 5090 。

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可上传音频或录音进行识别！

若显示 Bad Gateway ，这表示模型正在加载中，请等待约 2-3 分钟后刷新页面即可。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

四、交流探讨

引用信息

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

音频生成式 AI

Voxtral-Mini-3B-2507 语音理解模型 Demo

1 年前

Voxtral-Small-24B-2507 语音理解模型 Demo

1 年前

Kimi-Audio：让 AI 听懂人类

1 年前

Parakeet-tdt-0.6b-v2 语音识别

1 年前

GLM-4-Voice 端到端中英语音对话模型

1 年前

Whisper-large-v3-turbo 语音识别、翻译 Demo

1 年前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

GLM-ASR-Nano 智谱语音识别

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可上传音频或录音进行识别！

四、交流探讨

引用信息

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GLM-ASR-Nano 智谱语音识别

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可上传音频或录音进行识别！

四、交流探讨

引用信息

教程概览

相关教程

Voxtral-Mini-3B-2507 语音理解模型 Demo

Voxtral-Small-24B-2507 语音理解模型 Demo

Kimi-Audio：让 AI 听懂人类

Parakeet-tdt-0.6b-v2 语音识别

GLM-4-Voice 端到端中英语音对话模型

Whisper-large-v3-turbo 语音识别、翻译 Demo

用 AI 构建 AI

HyperAI Newsletters

Command Palette

GLM-ASR-Nano 智谱语音识别

一、教程简介

二、项目示例

三、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

2. 进入网页后，即可上传音频或录音进行识别！

四、交流探讨

引用信息

教程概览

相关教程

Voxtral-Mini-3B-2507 语音理解模型 Demo

Voxtral-Small-24B-2507 语音理解模型 Demo

Kimi-Audio：让 AI 听懂人类

Parakeet-tdt-0.6b-v2 语音识别

GLM-4-Voice 端到端中英语音对话模型

Whisper-large-v3-turbo 语音识别、翻译 Demo

用 AI 构建 AI

HyperAI Newsletters

相关教程

Voxtral-Mini-3B-2507 语音理解模型 Demo

Voxtral-Small-24B-2507 语音理解模型 Demo

Kimi-Audio：让 AI 听懂人类

Parakeet-tdt-0.6b-v2 语音识别

GLM-4-Voice 端到端中英语音对话模型

Whisper-large-v3-turbo 语音识别、翻译 Demo

相关教程

Voxtral-Mini-3B-2507 语音理解模型 Demo

Voxtral-Small-24B-2507 语音理解模型 Demo

Kimi-Audio：让 AI 听懂人类

Parakeet-tdt-0.6b-v2 语音识别

GLM-4-Voice 端到端中英语音对话模型

Whisper-large-v3-turbo 语音识别、翻译 Demo