Exécuter ce Notebook Discuter sur Discord

Date

il y a 7 mois

Balises

RTX 5090

Text-to-Audio

Licence

Apache 2.0

GitHub

nari-labs/dia21.2k

1. Introduction au tutoriel

Dia2-TTS est un service de synthèse vocale en temps réel basé sur le modèle de génération vocale à grande échelle Dia2 (Dia2-2B), développé par l'équipe de nari-labs et publié en novembre 2025. Il prend en charge la saisie de dialogues à plusieurs tours, les invites vocales à double rôle (voix préfixée) et l'échantillonnage multiparamétrique. Il offre une interface web interactive complète via Grado pour une synthèse vocale conversationnelle de haute qualité. Dia2-TTS peut traiter directement des dialogues continus à plusieurs tours pour générer une parole naturelle, cohérente et de haute qualité, idéale pour des applications telles que le service client virtuel, les assistants vocaux, le doublage par IA et la génération de courts métrages.

Fonctionnalités principales :

Synthèse vocale pour dialogues à plusieurs toursPermet de prendre en charge des dialogues continus à plusieurs tours entre deux personnages dans les saisons 1 et 2.
Timbre vocal déterminé par le préfixe vocalContrôler la cohérence de la voix d'un personnage grâce à la voix préfixée
Système d'échantillonnage doubleLes paramètres d'échantillonnage du texte et de l'audio sont contrôlables indépendamment.
Génération contrôlable de CFGPrend en charge le réglage de l'échelle CFG de l'intensité de génération globale.
Sortie alignée sur l'horodatageL'horodatage au niveau des mots facilite le sous-titrage et le montage en post-production.
Interaction via le WebInférence en ligne en un clic basée sur Grado.

Ce tutoriel utilise Grado pour déployer le service de synthèse vocale en temps réel Dia2-TTS. Les ressources de calcul utilisées sont des RTX_5090, capables de gérer efficacement les tâches de génération vocale de dialogues à plusieurs tours de parole. Actuellement, seuls les dialogues en anglais sont pris en charge.

2. Affichage des effets

Dia2-TTS peut réaliser les performances suivantes dans les applications pratiques :

Synthèse vocale pour dialogues à plusieurs toursPermet la génération de dialogues naturels continus à plusieurs tours de parole.
Sortie vocale très naturelleÉlocution fluide, pauses naturelles et émotions stables.
conservation de la voix du personnageMaintien d'un timbre vocal constant en fonction des préfixes vocaux
Sortie d'horodatage vocalIl peut être utilisé pour la génération de sous-titres, la synchronisation labiale de l'animation et le montage secondaire.
Sortie de visualisation des journauxDémontrer pleinement le processus de raisonnement et l'état de génération

3. Étapes de l'opération

1. Démarrez le conteneur

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Pour commencer

Si le message « Bad Gateway » s’affiche, cela signifie que le modèle est en cours d’initialisation. Veuillez patienter 1 à 2 minutes et actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Description des paramètres

Contrôle vocal global
- Échelle CFG : Contrôle la force de guidage globale de la génération de texte et de parole.
Paramètres d'échantillonnage de texte
- Température du texte : contrôle le caractère aléatoire de la génération de texte.
- Text Top-K : Contrôle de la gamme des candidats à l’échantillonnage de texte
paramètres d'échantillonnage audio
- Température audio : contrôle le caractère aléatoire de la génération audio.
- Audio Top-K : contrôle la plage de candidats des échantillons audio
Contrôle du préfixe vocal
- Conserver le préfixe : Indique s’il faut conserver la prononciation avec préfixe dans le résultat final.

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Vue d’ensemble de Notebook

Niveau

Débutant

Rubrique

Audio IA générative

Cahiers associés

OmniVoice : Prend En Charge La Synthèse Vocale De Haute Qualité Dans Plus De 600 Langues

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI