Dia-1.6B : Démonstration De Synthèse Vocale Émotionnelle
1. Introduction au tutoriel
Ce tutoriel utilise des ressources pour une seule carte RTX 4090 et ne prend actuellement en charge que la génération en anglais.
👉 Ce projet fournit un modèle de :
- Diam – 1,6B : Il dispose d'un modèle de synthèse vocale de 1,6 milliard de paramètres.
2. Exemples de projets

2. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle
Description des paramètres :
- Max Nouveaux jetons: Contrôle la longueur de l'audio généré.
- Échelle CFG: Ajustez le degré auquel la génération est conforme aux conditions d'entrée.
- Température: Contrôle le caractère aléatoire des résultats générés.
- Haut P:Contrôler la diversité de la sélection des candidats.
- Filtre CFG Top K:Combiné au filtrage Top K de CFG, équilibrant pertinence et diversité.
- Facteur de vitesse: Ajustez la vitesse de lecture ou le rythme généré de l'audio généré.
Comment utiliser
Saisissez le texte généré dans « Texte de saisie » et utilisez les balises [S1] et [S2] pour distinguer les dialogues des personnages. S'il y a deux timbres différents dans l'audio de référence, ils peuvent être étiquetés respectivement S1 (le premier timbre) et S2 (le deuxième timbre). Le timbre du personnage correspondra un à un aux deux timbres de l'audio de référence. S'il y a un son dans l'audio de référence, il peut être marqué comme S1 (premier son).

Échange et discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
