HyperAI

MOSS : Génération De Dialogues Texte-parole

1. Introduction au tutoriel

Construire

MOSS-TTSD est un modèle open source de synthèse de dialogues parlés bilingues, publié par l'équipe OpenMOSS le 20 juin 2025 et compatible avec le chinois et l'anglais. Il permet de convertir un script de conversation entre deux interlocuteurs en un discours conversationnel naturel et expressif. MOSS-TTSD prend en charge le clonage vocal et la génération de longs segments de parole, ce qui le rend idéal pour la production de podcasts par IA. Les résultats de l'article sont les suivants :MOSS-TTSD : Génération de dialogues texte-parole".

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Le modèle étant volumineux, veuillez patienter 2 à 3 minutes avant d'actualiser la page. Avec Safari, l'audio peut ne pas être lu directement ; il doit être téléchargé avant de pouvoir être lu.

*Ce tutoriel vous permet de choisir entre la génération audio en mode solo (Single) et la génération audio de dialogue à deux joueurs (Role) dans le « Mode d'entrée audio ».

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{moss2025ttsd,
  title={Text to Spoken Dialogue Generation}, 
  author={OpenMOSS Team},
  year={2025}
}