Démonstration Du Modèle De Génération De Discours Conversationnel CSM
1. Introduction au tutoriel
CSM (Conversational Speech Model) est un modèle de discours conversationnel développé par l'équipe Sesame en 2025. Il vise à améliorer les capacités d'interaction émotionnelle des assistants vocaux grâce à une technologie de génération de parole naturelle et cohérente. Le modèle est basé sur un cadre d’apprentissage multimodal, combine des données textuelles et vocales et utilise une architecture Transformer de bout en bout pour générer directement un discours naturel et émotionnel. Il peut générer des codes audio RVQ basés sur des entrées de texte et d'audio. L'architecture du modèle utilise une dorsale Llama et un petit décodeur audio qui génère du code audio Mimi.
Ce tutoriel utilise le modèle CSM-1B pour implémenter une conversation à deux personnes (prend uniquement en charge la génération en anglais) et la ressource de puissance de calcul utilise RTX 4090.
2. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Définissez l'objet parlant

3. Configurer le dialogue et la synthèse vocale (prend en charge uniquement la génération en anglais)

Échange et discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
