HyperAI

Reconnaissance Vocale Parakeet-tdt-0.6b-v2

1. Introduction au tutoriel

Étoiles GitHub

Ce didacticiel utilise une seule ressource de calcul RTX 4090 et le modèle prend uniquement en charge la reconnaissance vocale en anglais.

Parakeet-tdt-0.6b-v2 est un modèle de reconnaissance automatique de la parole (ASR) haute performance de 600 millions de paramètres, open source par NVIDIA en mai 2025. Il s'agit de la dernière version de la série Parakeet. Le modèle est basé sur l'architecture d'encodeur FastConformer et le décodeur TDT, et est capable de transcrire efficacement jusqu'à 24 minutes de clips audio en anglais en une seule fois. Ce modèle se concentre sur les tâches de transcription vocale en anglais de haute précision et à faible latence et convient aux scénarios de conversion de la parole en texte en anglais en temps réel (tels que les conversations de service client, les comptes rendus de réunion, les assistants vocaux, etc.). Les résultats pertinents de l'article sontConformateur rapide avec attention linéairement évolutive pour une reconnaissance vocale efficace".

2. Étapes de l'opération

1. Démarrez le conteneur

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration d'utilisation

Lorsque vous utilisez le navigateur Safari, il se peut que l'audio ne soit pas lu directement.

En plus de prendre en charge le téléchargement de fichiers vocaux, ce didacticiel prend également en charge la saisie vocale.

Les résultats de reconnaissance peuvent être enregistrés sous forme de fichiers CSV

3. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Soutien au projet

Merci à l'utilisateur Github SuperYang  Déploiement de ce tutoriel.