GLM-ASR-Nano Reconnaissance Vocale Intelligente
1. Introduction au tutoriel

GLM-ASR-Nano-2512 est un modèle de reconnaissance vocale open source lancé par ZhipuAI en décembre 2024, avec une échelle de paramètres de 1,5 milliard. Conçu spécifiquement pour gérer des scénarios complexes du monde réel, il se distingue par sa faible empreinte mémoire et surpasse OpenAI Whisper V3 dans de nombreux tests de référence. Ce modèle prend en charge le mandarin et l'anglais standard et fait preuve d'une robustesse remarquable dans la reconnaissance des dialectes et les conversations chuchotées ou à faible volume. Modèle performant et optimisé pour les environnements périphériques, il utilise des stratégies d'entraînement avancées pour capturer avec précision les détails de la parole à très faible volume, comblant ainsi les lacunes des modèles ASR traditionnels pour les dialectes et les environnements acoustiques complexes. Par exemple, dans les enregistrements de réunions bruyantes ou les conversations chuchotées confidentielles, GLM-ASR-Nano fournit des résultats de transcription extrêmement précis.
Ce tutoriel utilise Grado + Transformers pour déployer GLM-ASR-Nano-2512 à titre de démonstration, en utilisant les ressources informatiques suivantes : Une seule RTX 5090 .
2. Exemples de projets

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous accédez à la page Web, vous pouvez télécharger des fichiers audio ou des enregistrements pour reconnaissance !
Si affiché Mauvaise passerelle Cela signifie que le modèle est en cours de chargement. Veuillez patienter 2 à 3 minutes, puis actualiser la page.
Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Informations sur la citation
@misc{glm-asr-nano-2512,
title={GLM-ASR-Nano: A Robust and Compact Speech Recognition Model},
author={ZhipuAI},
year={2024},
publisher={Hugging Face},
url={[https://huggingface.co/zai-org/GLM-ASR-Nano-2512](https://huggingface.co/zai-org/GLM-ASR-Nano-2512)}
}Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.