日付

6ヶ月前

組織

タグ

音声認識

RTX 5090

ライセンス

Apache 2.0

GitHub

zai-org/GLM-ASR818

1. チュートリアルの概要

GLM-ASR-Nano-2512は、ZhipuAIが2024年12月にリリースしたオープンソースの音声認識モデルで、パラメータスケールは15億（1.5B）です。複雑な現実世界のシナリオに対応するために特別に設計されており、フットプリントが小さいにもかかわらず、複数のベンチマークテストでOpenAI Whisper V3を上回る性能を発揮します。このモデルは標準的な中国語と英語をサポートし、方言認識やささやき声/低音のシナリオにおいて優れた堅牢性を示しています。エッジフレンドリーで高性能なモデルとして、高度なトレーニング戦略を採用し、極めて低音量の音声の詳細を正確に捉え、方言や複雑な音響環境における従来のASRモデルのギャップを埋めます。例えば、騒がしい会議の録音やプライバシーを保護したささやき声の会話において、GLM-ASR-Nanoは非常に正確な文字起こし結果を提供します。

このチュートリアルでは、Grado + Transformers を使用して、次のコンピューティングリソースを採用し、GLM-ASR-Nano-2512 をデモとしてデプロイします。 シングルRTX 5090 。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Webページにアクセスすると、認識用の音声または録音をアップロードできます。

表示されている場合 悪いゲートウェイ これはモデルの読み込み中を意味します。2～3分ほどお待ちいただいてからページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

引用情報

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

Notebook の概要

レベル

入門

トピック

音声生成AI

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このノートブックを実行 Discordで議論

日付

6ヶ月前

組織

タグ

音声認識

RTX 5090

ライセンス

Apache 2.0

GitHub

zai-org/GLM-ASR818

1. チュートリアルの概要

このチュートリアルでは、Grado + Transformers を使用して、次のコンピューティングリソースを採用し、GLM-ASR-Nano-2512 をデモとしてデプロイします。 シングルRTX 5090 。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Webページにアクセスすると、認識用の音声または録音をアップロードできます。

表示されている場合 悪いゲートウェイ これはモデルの読み込み中を意味します。2～3分ほどお待ちいただいてからページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

引用情報

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

Notebook の概要

レベル

入門

トピック

音声生成AI

Voxtral-Mini-3B-2507 音声理解モデルデモ

1年前

Voxtral-Small-24B-2507 音声理解モデルデモ

1年前

Kimi-Audio: AIに人間を理解させる

1年前

Parakeet-tdt-0.6b-v2 音声認識

1年前

GLM-4-Voice エンドツーエンドの中国語と英語の音声対話モデル

1年前

Whisper-large-v3-turbo 音声認識と翻訳のデモ

1年前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

GLM-ASR-Nanoインテリジェント音声認識

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Webページにアクセスすると、認識用の音声または録音をアップロードできます。

引用情報

Notebook の概要

AIでAIを構築

HyperAI Newsletters

Command Palette

GLM-ASR-Nanoインテリジェント音声認識

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Webページにアクセスすると、認識用の音声または録音をアップロードできます。

引用情報

Notebook の概要

関連ノートブック

Voxtral-Mini-3B-2507 音声理解モデルデモ

Voxtral-Small-24B-2507 音声理解モデルデモ

Kimi-Audio: AIに人間を理解させる

Parakeet-tdt-0.6b-v2 音声認識

GLM-4-Voice エンドツーエンドの中国語と英語の音声対話モデル

Whisper-large-v3-turbo 音声認識と翻訳のデモ

AIでAIを構築

HyperAI Newsletters

Command Palette

GLM-ASR-Nanoインテリジェント音声認識

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Webページにアクセスすると、認識用の音声または録音をアップロードできます。

引用情報

Notebook の概要

関連ノートブック

Voxtral-Mini-3B-2507 音声理解モデルデモ

Voxtral-Small-24B-2507 音声理解モデルデモ

Kimi-Audio: AIに人間を理解させる

Parakeet-tdt-0.6b-v2 音声認識

GLM-4-Voice エンドツーエンドの中国語と英語の音声対話モデル

Whisper-large-v3-turbo 音声認識と翻訳のデモ

AIでAIを構築

HyperAI Newsletters

関連ノートブック

Voxtral-Mini-3B-2507 音声理解モデルデモ

Voxtral-Small-24B-2507 音声理解モデルデモ

Kimi-Audio: AIに人間を理解させる

Parakeet-tdt-0.6b-v2 音声認識

GLM-4-Voice エンドツーエンドの中国語と英語の音声対話モデル

Whisper-large-v3-turbo 音声認識と翻訳のデモ

関連ノートブック

Voxtral-Mini-3B-2507 音声理解モデルデモ

Voxtral-Small-24B-2507 音声理解モデルデモ

Kimi-Audio: AIに人間を理解させる

Parakeet-tdt-0.6b-v2 音声認識

GLM-4-Voice エンドツーエンドの中国語と英語の音声対話モデル

Whisper-large-v3-turbo 音声認識と翻訳のデモ