Le Modèle De Reconnaissance Vocale Open Source NVIDIA, ParaKeet-tdt-0.6b-v2, Peut Transcrire 1 Heure D'audio En Seulement 1 Seconde, Identifiant Avec Précision Le Discours De Pichai Ge

Qu'il s'agisse de comprendre les intentions des utilisateurs en temps réel dans un service client intelligent ou de reconnaître l'audio avec plusieurs vitesses de parole et accents dans des scénarios tels que les comptes rendus de réunion, le montage d'entretiens et la génération de sous-titres, les besoins d'utilisation en constante évolution imposent des exigences plus strictes à la technologie de reconnaissance vocale. Par exemple, la vitesse de reconnaissance, le coût d’utilisation, la précision et la stabilité dans les environnements bruyants, etc.
Face aux défis ci-dessus,NVIDIA a récemment ouvert le code source du modèle de reconnaissance vocale ParaKeet-tdt-0.6b-v2.Basé sur l'architecture FastConformer et la technologie TDT (TransducerDecoderTransformer) développée par NVIDIA, il atteint une efficacité d'inférence extrême.Il ne faut qu’une seconde pour traiter 60 minutes de contenu audio.Au-delà de tous les modèles traditionnels à code source fermé. De plus, le modèle se concentre sur des tâches de transcription de discours en anglais de haute précision et à faible latence, ce qui convient aux scénarios de conversion de la parole en texte en anglais en temps réel, facilitant la communication interlinguistique et rendant les comptes rendus de réunion plus fluides.
à l'heure actuelle,La démo « ParaKeet-tdt-0.6b-v2 Speech Recognition » a été lancée dans la section « Tutoriel » du site officiel d'HyperAI.Cliquez sur le lien ci-dessous pour découvrir le didacticiel de déploiement en un clic
Lien du tutoriel :
Essai de démonstration
1. Après avoir accédé à la page d'accueil de hyper.ai, sélectionnez la page « Tutoriel », sélectionnez « Reconnaissance vocale ParaKeet-tdt-0.6b-v2 » et cliquez sur « Exécuter ce tutoriel en ligne ».


2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Sélectionnez les images « NVIDIA GeForce RTX 4090 » et « PyTorch ». La plateforme OpenBayes propose quatre méthodes de facturation. Vous pouvez choisir « Payer au fur et à mesure » ou « Quotidien/Hebdomadaire/Mensuel » selon vos besoins. Cliquez sur « Continuer ». Les nouveaux utilisateurs peuvent s'inscrire en utilisant le lien d'invitation ci-dessous pour obtenir 4 heures de RTX 4090 + 5 heures de temps CPU gratuit !
Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. Attendez que les ressources soient allouées. Le premier processus de clonage prend environ 2 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page de démonstration. Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.


Démonstration d'effet
Téléchargez le fichier audio dans « Télécharger le fichier audio », puis cliquez sur « Transcrire le fichier téléchargé » pour la reconnaissance. J'ai téléchargé ici un extrait audio d'un discours d'ouverture de Google I/O, et le modèle l'a reconnu rapidement et avec précision.

Le contenu de la reconnaissance vocale est le suivant :
Bonjour à tous, bonjour.
Bienvenue sur Google.io.
J'ai appris qu'aujourd'hui est le début de la saison des Gémeaux.
Je ne sais pas vraiment où est le problème.
Chaque jour est la saison des Gémeaux ici chez Google.
Il y a quelques semaines, Gemini a terminé Pokémon Bleu.
De plus, ParaKeet-tdt-0.6b-v2 prend également en charge la saisie vocale. Cliquez sur « Microphone », puis sur « Enregistrer », et une fois l'enregistrement terminé, cliquez sur « Transcrire le fichier téléchargé » pour le reconnaître.

Ce qui précède est le tutoriel pratique recommandé par HyperAI cette fois-ci. Tout le monde est invité à en faire l’expérience !
Lien du tutoriel :