HyperAIHyperAI

Command Palette

Search for a command to run...

Console

Dia2-TTS : Service De Synthèse Vocale En Temps Réel

1. Introduction au tutoriel

Construire

Dia2-TTS est un service de synthèse vocale en temps réel basé sur le modèle de génération vocale à grande échelle Dia2 (Dia2-2B), développé par l'équipe de nari-labs et publié en novembre 2025. Il prend en charge la saisie de dialogues à plusieurs tours, les invites vocales à double rôle (voix préfixée) et l'échantillonnage multiparamétrique. Il offre une interface web interactive complète via Grado pour une synthèse vocale conversationnelle de haute qualité. Dia2-TTS peut traiter directement des dialogues continus à plusieurs tours pour générer une parole naturelle, cohérente et de haute qualité, idéale pour des applications telles que le service client virtuel, les assistants vocaux, le doublage par IA et la génération de courts métrages.

Fonctionnalités principales :

  • Synthèse vocale pour dialogues à plusieurs toursPermet de prendre en charge des dialogues continus à plusieurs tours entre deux personnages dans les saisons 1 et 2.
  • Timbre vocal déterminé par le préfixe vocalContrôler la cohérence de la voix d'un personnage grâce à la voix préfixée
  • Système d'échantillonnage doubleLes paramètres d'échantillonnage du texte et de l'audio sont contrôlables indépendamment.
  • Génération contrôlable de CFGPrend en charge le réglage de l'échelle CFG de l'intensité de génération globale.
  • Sortie alignée sur l'horodatageL'horodatage au niveau des mots facilite le sous-titrage et le montage en post-production.
  • Interaction via le WebInférence en ligne en un clic basée sur Grado.

Ce tutoriel utilise Grado pour déployer le service de synthèse vocale en temps réel Dia2-TTS. Les ressources de calcul utilisées sont des RTX_5090, capables de gérer efficacement les tâches de génération vocale de dialogues à plusieurs tours de parole. Actuellement, seuls les dialogues en anglais sont pris en charge.

2. Affichage des effets

Dia2-TTS peut réaliser les performances suivantes dans les applications pratiques :

  • Synthèse vocale pour dialogues à plusieurs toursPermet la génération de dialogues naturels continus à plusieurs tours de parole.
  • Sortie vocale très naturelleÉlocution fluide, pauses naturelles et émotions stables.
  • conservation de la voix du personnageMaintien d'un timbre vocal constant en fonction des préfixes vocaux
  • Sortie d'horodatage vocalIl peut être utilisé pour la génération de sous-titres, la synchronisation labiale de l'animation et le montage secondaire.
  • Sortie de visualisation des journauxDémontrer pleinement le processus de raisonnement et l'état de génération

3. Étapes de l'opération

1. Démarrez le conteneur

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Pour commencer

Si le message « Bad Gateway » s’affiche, cela signifie que le modèle est en cours d’initialisation. Veuillez patienter 1 à 2 minutes et actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Description des paramètres

  • Contrôle vocal global
    • Échelle CFG : Contrôle la force de guidage globale de la génération de texte et de parole.
  • Paramètres d'échantillonnage de texte
    • Température du texte : contrôle le caractère aléatoire de la génération de texte.
    • Text Top-K : Contrôle de la gamme des candidats à l’échantillonnage de texte
  • paramètres d'échantillonnage audio
    • Température audio : contrôle le caractère aléatoire de la génération audio.
    • Audio Top-K : contrôle la plage de candidats des échantillons audio
  • Contrôle du préfixe vocal
    • Conserver le préfixe : Indique s’il faut conserver la prononciation avec préfixe dans le résultat final.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Dia2-TTS : Service De Synthèse Vocale En Temps Réel | Notebooks | HyperAI