HyperAIHyperAI

Command Palette

Search for a command to run...

Reconnaissance Vocale Parakeet-tdt-0.6b-v2

Date

il y a 9 mois

Taille

836.41 MB

Licence

CC BY 4.0

URL du document

2305.05084

1. Introduction au tutoriel

Étoiles GitHub

Ce didacticiel utilise une seule ressource de calcul RTX 4090 et le modèle prend uniquement en charge la reconnaissance vocale en anglais.

Parakeet-tdt-0.6b-v2 est un modèle de reconnaissance vocale automatique (ASR) haute performance doté de 600 millions de paramètres, mis à disposition en open source par NVIDIA en mai 2025. Il s'agit de la dernière version de la série Parakeet. Basé sur l'architecture d'encodage FastConformer et le décodeur TDT, ce modèle peut transcrire efficacement des segments audio anglais d'une durée maximale de 24 minutes en une seule passe. Il est conçu pour les tâches de transcription vocale anglaise de haute précision et à faible latence et convient aux scénarios de conversion parole-texte en temps réel (tels que les dialogues de service client, les comptes rendus de réunion et les assistants vocaux). Des articles de recherche associés sont disponibles. Conformateur rapide avec attention linéairement évolutive pour une reconnaissance vocale efficace .

2. Étapes de l'opération

1. Démarrez le conteneur

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Démonstration d'utilisation

Lorsque vous utilisez le navigateur Safari, il se peut que l'audio ne soit pas lu directement.

En plus de prendre en charge le téléchargement de fichiers vocaux, ce didacticiel prend également en charge la saisie vocale.

Les résultats de reconnaissance peuvent être enregistrés sous forme de fichiers CSV

3. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Soutien au projet

Merci à l'utilisateur Github SuperYang  Déploiement de ce tutoriel.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp