Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 6 Monaten

Organisation

1. Einführung in das Tutorial

GLM-ASR-Nano-2512 ist ein Open-Source-Spracherkennungsmodell, das von ZhipuAI im Dezember 2024 veröffentlicht wurde und über 1,5 Milliarden Parameter verfügt. Es wurde speziell für komplexe Anwendungsszenarien entwickelt und zeichnet sich durch geringen Ressourcenverbrauch aus, übertrifft aber OpenAI Whisper V3 in mehreren Benchmark-Tests. Das Modell unterstützt Standard-Mandarin und Englisch und beweist bemerkenswerte Robustheit bei der Dialekterkennung sowie bei geflüsterten oder leisen Gesprächen. Als leistungsstarkes und ressourcenschonendes Modell nutzt es fortschrittliche Trainingsstrategien, um selbst extrem leise Sprachdetails präzise zu erfassen und so die Lücken traditioneller ASR-Modelle für Dialekte und komplexe akustische Umgebungen zu schließen. Beispielsweise liefert GLM-ASR-Nano äußerst genaue Transkriptionsergebnisse bei verrauschten Besprechungsaufnahmen oder vertraulichen Flüstergesprächen.

Dieses Tutorial verwendet Grado + Transformers, um GLM-ASR-Nano-2512 als Demonstrationsprojekt bereitzustellen. Dabei werden die folgenden Rechenressourcen genutzt: Einzelne RTX 5090 .

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite aufgerufen haben, können Sie Audio- oder Tonaufnahmen zur Erkennung hochladen!

Wenn angezeigt Bad Gateway Das bedeutet, dass das Modell geladen wird. Bitte warten Sie etwa 2–3 Minuten und aktualisieren Sie dann die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

Zitationsinformationen

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Notebook-Übersicht

Stufe

Einsteiger

Thema

Audio Generative KI

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 6 Monaten

Organisation

1. Einführung in das Tutorial

Dieses Tutorial verwendet Grado + Transformers, um GLM-ASR-Nano-2512 als Demonstrationsprojekt bereitzustellen. Dabei werden die folgenden Rechenressourcen genutzt: Einzelne RTX 5090 .

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite aufgerufen haben, können Sie Audio- oder Tonaufnahmen zur Erkennung hochladen!

Wenn angezeigt Bad Gateway Das bedeutet, dass das Modell geladen wird. Bitte warten Sie etwa 2–3 Minuten und aktualisieren Sie dann die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

Zitationsinformationen

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

Notebook-Übersicht

Stufe

Einsteiger

Thema

Audio Generative KI

Voxtral-Mini-3B-2507 Demo Des Sprachverständnismodells

vor einem Jahr

Voxtral-Small-24B-2507 Demo Des Sprachverständnismodells

vor einem Jahr

Kimi-Audio: KI Soll Menschen Verstehen

vor einem Jahr

Parakeet-tdt-0.6b-v2 Spracherkennung

vor einem Jahr

GLM-4-Voice End-to-End-Konversationsmodell Chinesisch-Englisch

vor einem Jahr

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung

vor einem Jahr

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

GLM-ASR-Nano Intelligente Spracherkennung

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite aufgerufen haben, können Sie Audio- oder Tonaufnahmen zur Erkennung hochladen!

Zitationsinformationen

Notebook-Übersicht

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GLM-ASR-Nano Intelligente Spracherkennung

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite aufgerufen haben, können Sie Audio- oder Tonaufnahmen zur Erkennung hochladen!

Zitationsinformationen

Notebook-Übersicht

Verwandte Notebooks

Voxtral-Mini-3B-2507 Demo Des Sprachverständnismodells

Voxtral-Small-24B-2507 Demo Des Sprachverständnismodells

Kimi-Audio: KI Soll Menschen Verstehen

Parakeet-tdt-0.6b-v2 Spracherkennung

GLM-4-Voice End-to-End-Konversationsmodell Chinesisch-Englisch

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GLM-ASR-Nano Intelligente Spracherkennung

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite aufgerufen haben, können Sie Audio- oder Tonaufnahmen zur Erkennung hochladen!

Zitationsinformationen

Notebook-Übersicht

Verwandte Notebooks

Voxtral-Mini-3B-2507 Demo Des Sprachverständnismodells

Voxtral-Small-24B-2507 Demo Des Sprachverständnismodells

Kimi-Audio: KI Soll Menschen Verstehen

Parakeet-tdt-0.6b-v2 Spracherkennung

GLM-4-Voice End-to-End-Konversationsmodell Chinesisch-Englisch

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung

KI mit KI entwickeln

HyperAI Newsletters

Verwandte Notebooks

Voxtral-Mini-3B-2507 Demo Des Sprachverständnismodells

Voxtral-Small-24B-2507 Demo Des Sprachverständnismodells

Kimi-Audio: KI Soll Menschen Verstehen

Parakeet-tdt-0.6b-v2 Spracherkennung

GLM-4-Voice End-to-End-Konversationsmodell Chinesisch-Englisch

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung

Verwandte Notebooks

Voxtral-Mini-3B-2507 Demo Des Sprachverständnismodells

Voxtral-Small-24B-2507 Demo Des Sprachverständnismodells

Kimi-Audio: KI Soll Menschen Verstehen

Parakeet-tdt-0.6b-v2 Spracherkennung

GLM-4-Voice End-to-End-Konversationsmodell Chinesisch-Englisch

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung