OuteTTS : Moteur De Génération Vocale
1. Introduction au tutoriel

OuteTTS est un projet open source de synthèse vocale (TTS) lancé par l'équipe Oute AI début novembre 2024. Son innovation principale réside dans l'utilisation d'une approche de modélisation linguistique pure pour générer une parole de haute qualité sans recourir à des adaptateurs complexes ou à des modules externes dans les systèmes de synthèse vocale traditionnels. Ses principales fonctionnalités sont les suivantes :
- Synthèse de texte en parole : saisissez du texte pour générer une sortie vocale naturelle et fluide, prenant en charge la vitesse et l'intonation de la parole personnalisables.
- Clonage vocal : les utilisateurs peuvent fournir un audio de référence et le texte correspondant en quelques secondes seulement pour créer des voix personnalisées, ce qui convient aux assistants vocaux personnalisés, aux livres audio et à d'autres scénarios.
Le modèle utilisé dans ce tutoriel est le modèle Llama-OuteTTS-1.0-1B, publié par Oute AI en mars 2025. Les paramètres ont été augmentés de 350 millions à 1 milliard, améliorant considérablement l'expressivité et la stabilité de la voix. Il prend également en charge la synthèse localisée dans 20 langues, et la capacité de clonage interlinguistique a été optimisée.
Les ressources informatiques de ce tutoriel utilisent une seule carte RTX 4090. Ce tutoriel fournit principalement deux exemples d'utilisation du haut-parleur par défaut et du clonage vocal. Ce tutoriel est disponible uniquement en anglais.
2. Affichage des effets

3. Étapes de l'opération
1. Démarrez le conteneur

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.
Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.
Paramètres spécifiques :
- Texte : Saisissez le texte à générer.
- Température : facteur d'échelle qui contrôle le caractère aléatoire de la sortie.
- Pénalité de répétition : Coefficient de pénalité pour la suppression de la génération répétée.
- Top-k : limitez le nombre de mots candidats générés à chaque étape.
- Top-p : Sélection dynamique de mots candidats (échantillonnage par noyau).
- Probabilité minimale (min-p) : définit le seuil de probabilité minimale pour les mots candidats.
1. Haut-parleur par défaut

2. Clonage vocal

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
