HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole

1. Einführung in das Tutorial

GitHub Stars

GLM-ASR-Nano-2512 ist ein Open-Source-Spracherkennungsmodell, das von ZhipuAI im Dezember 2024 veröffentlicht wurde und über 1,5 Milliarden Parameter verfügt. Es wurde speziell für komplexe Anwendungsszenarien entwickelt und zeichnet sich durch geringen Ressourcenverbrauch aus, übertrifft aber OpenAI Whisper V3 in mehreren Benchmark-Tests. Das Modell unterstützt Standard-Mandarin und Englisch und beweist bemerkenswerte Robustheit bei der Dialekterkennung sowie bei geflüsterten oder leisen Gesprächen. Als leistungsstarkes und ressourcenschonendes Modell nutzt es fortschrittliche Trainingsstrategien, um selbst extrem leise Sprachdetails präzise zu erfassen und so die Lücken traditioneller ASR-Modelle für Dialekte und komplexe akustische Umgebungen zu schließen. Beispielsweise liefert GLM-ASR-Nano äußerst genaue Transkriptionsergebnisse bei verrauschten Besprechungsaufnahmen oder vertraulichen Flüstergesprächen.

Dieses Tutorial verwendet Grado + Transformers, um GLM-ASR-Nano-2512 als Demonstrationsprojekt bereitzustellen. Dabei werden die folgenden Rechenressourcen genutzt:  Einzelne RTX 5090  .

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite aufgerufen haben, können Sie Audio- oder Tonaufnahmen zur Erkennung hochladen!

Wenn angezeigt Bad Gateway Das bedeutet, dass das Modell geladen wird. Bitte warten Sie etwa 2–3 Minuten und aktualisieren Sie dann die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

Zitationsinformationen

@misc{glm-asr-nano-2512,
      title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model}, 
      author={ZhipuAI},
      year={2024},
      publisher={Hugging Face},
      url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-Co-Programmierung
Einsatzbereite GPUs
Bestpreis

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp