Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

343.32 MB

Balises

Text-to-Audio

Licence

Apache 2.0

GitHub

edwko/OuteTTS

URL du document

outeai.com

1. Introduction au tutoriel

Synthèse de texte en parole : saisissez du texte pour générer une sortie vocale naturelle et fluide, prenant en charge la vitesse et l'intonation de la parole personnalisables.
Clonage vocal : les utilisateurs peuvent fournir un audio de référence et le texte correspondant en quelques secondes seulement pour créer des voix personnalisées, ce qui convient aux assistants vocaux personnalisés, aux livres audio et à d'autres scénarios.

Le modèle utilisé dans ce tutoriel est le modèle Llama-OuteTTS-1.0-1B, publié par Oute AI en mars 2025. Les paramètres ont été augmentés de 350 millions à 1 milliard, améliorant considérablement l'expressivité et la stabilité de la voix. Il prend également en charge la synthèse localisée dans 20 langues, et la capacité de clonage interlinguistique a été optimisée.

Les ressources informatiques de ce tutoriel utilisent une seule carte RTX 4090. Ce tutoriel fournit principalement deux exemples d'utilisation du haut-parleur par défaut et du clonage vocal. Ce tutoriel est disponible uniquement en anglais.

2. Affichage des effets

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Paramètres spécifiques :

Texte : Saisissez le texte à générer.
Température : facteur d'échelle qui contrôle le caractère aléatoire de la sortie.
Pénalité de répétition : Coefficient de pénalité pour la suppression de la génération répétée.
Top-k : limitez le nombre de mots candidats générés à chaque étape.
Top-p : Sélection dynamique de mots candidats (échantillonnage par noyau).
Probabilité minimale (min-p) : définit le seuil de probabilité minimale pour les mots candidats.

1. Haut-parleur par défaut

2. Clonage vocal

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

Déploiement En Un Clic De DeepSeek-R1-70B

il y a 3 mois

Dia2-TTS : Service De Synthèse Vocale En Temps Réel

il y a 2 mois

SoulX-Podcast : Génération Vocale De Textes Longs De Qualité Podcast Pour Plusieurs dialectes.

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

343.32 MB

Balises

Text-to-Audio

Licence

Apache 2.0

GitHub

edwko/OuteTTS

URL du document

outeai.com

1. Introduction au tutoriel

Synthèse de texte en parole : saisissez du texte pour générer une sortie vocale naturelle et fluide, prenant en charge la vitesse et l'intonation de la parole personnalisables.
Clonage vocal : les utilisateurs peuvent fournir un audio de référence et le texte correspondant en quelques secondes seulement pour créer des voix personnalisées, ce qui convient aux assistants vocaux personnalisés, aux livres audio et à d'autres scénarios.

Les ressources informatiques de ce tutoriel utilisent une seule carte RTX 4090. Ce tutoriel fournit principalement deux exemples d'utilisation du haut-parleur par défaut et du clonage vocal. Ce tutoriel est disponible uniquement en anglais.

2. Affichage des effets