HyperAI

Outil De Reconnaissance Vocale En Ligne Whisper Web

Introduction

Whisper est un modèle de conversion de la parole en texte qu'OpenAI a ouvert en 2023. Son effet de génération a été largement salué. Ce tutoriel est basé sur le projet open source Whisper Web sur GitHub et exécute Whisper directement dans le navigateur.

Whisper utilise ML pour la reconnaissance vocale et peut être accéléré à l'aide de WebGPU. Il prend en charge le téléchargement de fichiers audio en ligne/local et l'enregistrement instantané dans plus de 100 langues. Le texte reconnu peut être exporté aux formats de fichiers TXT et JSON, et peut également être directement traduit en anglais.

Affichage des effets

Méthode d'exécution (il faut environ 10 secondes pour initialiser après le démarrage du conteneur, puis effectuer les opérations suivantes)

1. Après avoir cloné et démarré le conteneur, copiez l'API dans votre navigateur

2. Obtenez des fichiers audio par téléchargement en ligne/local ou par enregistrement instantané

3. Sélectionnez le modèle en fonction de vos besoins

4. Après avoir terminé la sélection du modèle, générez directement les résultats