Le Modèle De Reconnaissance Vocale Open Source NVIDIA, ParaKeet-tdt-0.6b-v2, Peut Transcrire 1 Heure d'audio En Seulement 1 Seconde, Identifiant Avec Précision Le Discours De Pichai Ge

il y a un an

Qu'il s'agisse de comprendre les intentions des utilisateurs en temps réel dans un service client intelligent ou de reconnaître l'audio avec plusieurs vitesses de parole et accents dans des scénarios tels que les comptes rendus de réunion, le montage d'entretiens et la génération de sous-titres, les besoins d'utilisation en constante évolution imposent des exigences plus strictes à la technologie de reconnaissance vocale. Par exemple, la vitesse de reconnaissance, le coût d’utilisation, la précision et la stabilité dans les environnements bruyants, etc.

Face aux défis ci-dessus,NVIDIA a récemment ouvert le code source du modèle de reconnaissance vocale ParaKeet-tdt-0.6b-v2.Basé sur l'architecture FastConformer et la technologie TDT (TransducerDecoderTransformer) développée par NVIDIA, il atteint une efficacité d'inférence extrême.Il ne faut qu’une seconde pour traiter 60 minutes de contenu audio.Au-delà de tous les modèles traditionnels à code source fermé. De plus, le modèle se concentre sur des tâches de transcription de discours en anglais de haute précision et à faible latence, ce qui convient aux scénarios de conversion de la parole en texte en anglais en temps réel, facilitant la communication interlinguistique et rendant les comptes rendus de réunion plus fluides.

à l'heure actuelle,La démo « ParaKeet-tdt-0.6b-v2 Speech Recognition » a été lancée dans la section « Tutoriel » du site officiel d'HyperAI.Cliquez sur le lien ci-dessous pour découvrir le didacticiel de déploiement en un clic

Lien du tutoriel :

https://go.hyper.ai/SFu38

Essai de démonstration

1. Après avoir accédé à la page d'accueil de hyper.ai, sélectionnez la page « Tutoriel », sélectionnez « Reconnaissance vocale ParaKeet-tdt-0.6b-v2 » et cliquez sur « Exécuter ce tutoriel en ligne ».

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Sélectionnez les images « NVIDIA GeForce RTX 4090 » et « PyTorch ». La plateforme OpenBayes propose quatre méthodes de facturation. Vous pouvez choisir « Payer au fur et à mesure » ou « Quotidien/Hebdomadaire/Mensuel » selon vos besoins. Cliquez sur « Continuer ». Les nouveaux utilisateurs peuvent s'inscrire en utilisant le lien d'invitation ci-dessous pour obtenir 4 heures de RTX 4090 + 5 heures de temps CPU gratuit !

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. Attendez que les ressources soient allouées. Le premier processus de clonage prend environ 2 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page de démonstration. Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.

Démonstration d'effet

Téléchargez le fichier audio dans « Télécharger le fichier audio », puis cliquez sur « Transcrire le fichier téléchargé » pour la reconnaissance. J'ai téléchargé ici un extrait audio d'un discours d'ouverture de Google I/O, et le modèle l'a reconnu rapidement et avec précision.

Le contenu de la reconnaissance vocale est le suivant :

Bonjour à tous, bonjour.

Bienvenue sur Google.io.

J'ai appris qu'aujourd'hui est le début de la saison des Gémeaux.

Je ne sais pas vraiment où est le problème.

Chaque jour est la saison des Gémeaux ici chez Google.

Il y a quelques semaines, Gemini a terminé Pokémon Bleu.

De plus, ParaKeet-tdt-0.6b-v2 prend également en charge la saisie vocale. Cliquez sur « Microphone », puis sur « Enregistrer », et une fois l'enregistrement terminé, cliquez sur « Transcrire le fichier téléchargé » pour le reconnaître.

Ce qui précède est le tutoriel pratique recommandé par HyperAI cette fois-ci. Tout le monde est invité à en faire l’expérience !

Lien du tutoriel :

https://go.hyper.ai/SFu38

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tirant Parti Des Capacités Contextuelles Étendues De Gemini 1.5, Le Système De Santé Conversationnel De Google, AMIE, a Atteint Le Niveau De Raisonnement d'un Médecin Généraliste Dans 100 Scénarios Impliquant De Multiples Visites De patients.

Anima V1, Un Tout Nouveau Modèle d'image Brute, a Été Publié, Axé Sur La Génération d'images De Style Anime ; l'ensemble De Données d'évaluation De La Mémoire Multimodale À Longue Portée MemLens Couvre Le Raisonnement graphique-texte Interconversationnel Et Les Mécanismes De Mise À Jour Des connaissances.

HyperAI

Le Modèle De Reconnaissance Vocale Open Source NVIDIA, ParaKeet-tdt-0.6b-v2, Peut Transcrire 1 Heure d'audio En Seulement 1 Seconde, Identifiant Avec Précision Le Discours De Pichai Ge

il y a un an

Information

Intelligence Artificielle

Apprentissage Automatique

Apprentissage Profond

Lien du tutoriel :

https://go.hyper.ai/SFu38

Essai de démonstration

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

Démonstration d'effet

Le contenu de la reconnaissance vocale est le suivant :

Bonjour à tous, bonjour.

Bienvenue sur Google.io.

J'ai appris qu'aujourd'hui est le début de la saison des Gémeaux.

Je ne sais pas vraiment où est le problème.

Chaque jour est la saison des Gémeaux ici chez Google.

Il y a quelques semaines, Gemini a terminé Pokémon Bleu.

Ce qui précède est le tutoriel pratique recommandé par HyperAI cette fois-ci. Tout le monde est invité à en faire l’expérience !

Lien du tutoriel :

https://go.hyper.ai/SFu38

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tirant Parti Des Capacités Contextuelles Étendues De Gemini 1.5, Le Système De Santé Conversationnel De Google, AMIE, a Atteint Le Niveau De Raisonnement d'un Médecin Généraliste Dans 100 Scénarios Impliquant De Multiples Visites De patients.

Anima V1, Un Tout Nouveau Modèle d'image Brute, a Été Publié, Axé Sur La Génération d'images De Style Anime ; l'ensemble De Données d'évaluation De La Mémoire Multimodale À Longue Portée MemLens Couvre Le Raisonnement graphique-texte Interconversationnel Et Les Mécanismes De Mise À Jour Des connaissances.

Command Palette

Le Modèle De Reconnaissance Vocale Open Source NVIDIA, ParaKeet-tdt-0.6b-v2, Peut Transcrire 1 Heure d'audio En Seulement 1 Seconde, Identifiant Avec Précision Le Discours De Pichai Ge

Essai de démonstration

Démonstration d'effet

Command Palette

Le Modèle De Reconnaissance Vocale Open Source NVIDIA, ParaKeet-tdt-0.6b-v2, Peut Transcrire 1 Heure d'audio En Seulement 1 Seconde, Identifiant Avec Précision Le Discours De Pichai Ge

Essai de démonstration

Démonstration d'effet

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tirant Parti Des Capacités Contextuelles Étendues De Gemini 1.5, Le Système De Santé Conversationnel De Google, AMIE, a Atteint Le Niveau De Raisonnement d'un Médecin Généraliste Dans 100 Scénarios Impliquant De Multiples Visites De patients.

Command Palette

Le Modèle De Reconnaissance Vocale Open Source NVIDIA, ParaKeet-tdt-0.6b-v2, Peut Transcrire 1 Heure d'audio En Seulement 1 Seconde, Identifiant Avec Précision Le Discours De Pichai Ge

Essai de démonstration

Démonstration d'effet

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tirant Parti Des Capacités Contextuelles Étendues De Gemini 1.5, Le Système De Santé Conversationnel De Google, AMIE, a Atteint Le Niveau De Raisonnement d'un Médecin Généraliste Dans 100 Scénarios Impliquant De Multiples Visites De patients.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tirant Parti Des Capacités Contextuelles Étendues De Gemini 1.5, Le Système De Santé Conversationnel De Google, AMIE, a Atteint Le Niveau De Raisonnement d'un Médecin Généraliste Dans 100 Scénarios Impliquant De Multiples Visites De patients.

Associé Actualités

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | Vitesse De Génération jusqu'à 4 Fois Plus Rapide : DiffusionGemma Peut Générer Simultanément Des Blocs De Texte Entiers, Avec Une Optimisation Continue Basée Sur Un Débruitage Parallèle multi-itérations.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Tirant Parti Des Capacités Contextuelles Étendues De Gemini 1.5, Le Système De Santé Conversationnel De Google, AMIE, a Atteint Le Niveau De Raisonnement d'un Médecin Généraliste Dans 100 Scénarios Impliquant De Multiples Visites De patients.