HyperAI

Dia-1.6B : Démonstration De Synthèse Vocale Émotionnelle

Image
Construire
Licence : MIT

1. Introduction au tutoriel

Dia-1.6B est un modèle de synthèse vocale publié par l'équipe de Nari Labs le 21 avril 2025. Il est capable de générer des conversations très réalistes directement à partir de scripts texte et prend en charge le contrôle des émotions et de l'intonation basé sur l'audio. De plus, Dia-1.6B peut également générer des sons de communication non verbale, tels que le rire, la toux, le raclement de gorge, etc., rendant les conversations plus naturelles et plus vivantes. Ce modèle prend non seulement en charge la génération de dialogues multi-rôles, mais peut également distinguer les rôles grâce à des étiquettes telles que [S1] et [S2], générer des dialogues multi-rôles en une seule prise et maintenir le rythme naturel et les transitions émotionnelles. Ce projet prend également en charge le téléchargement de vos propres échantillons audio. Le modèle générera des voix similaires en fonction des échantillons pour obtenir un clonage d'empreinte vocale à échantillon zéro.

Ce tutoriel utilise des ressources pour une seule carte RTX 4090 et ne prend actuellement en charge que la génération en anglais.

👉 Ce projet fournit un modèle de :

  • Diam – 1,6B :  Il dispose d'un modèle de synthèse vocale de 1,6 milliard de paramètres.

2. Exemples de projets

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Après être entré sur la page Web, vous pouvez démarrer une conversation avec le modèle

Description des paramètres :

  • Max Nouveaux jetons: Contrôle la longueur de l'audio généré.
  • Échelle CFG: Ajustez le degré auquel la génération est conforme aux conditions d'entrée.
  • Température: Contrôle le caractère aléatoire des résultats générés.
  • Haut P:Contrôler la diversité de la sélection des candidats.
  • Filtre CFG Top K:Combiné au filtrage Top K de CFG, équilibrant pertinence et diversité.
  • Facteur de vitesse: Ajustez la vitesse de lecture ou le rythme généré de l'audio généré.

Comment utiliser

Saisissez le texte généré dans « Texte de saisie » et utilisez les balises [S1] et [S2] pour distinguer les dialogues des personnages. S'il y a deux timbres différents dans l'audio de référence, ils peuvent être étiquetés respectivement S1 (le premier timbre) et S2 (le deuxième timbre). Le timbre du personnage correspondra un à un aux deux timbres de l'audio de référence. S'il y a un son dans l'audio de référence, il peut être marqué comme S1 (premier son). 

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓