Command Palette
Search for a command to run...
kyutai-tts-1.6 b-en_fr Génération Audio
Date
Taille
543.77 MB
Balises
Licence
Apache 2.0
URL du document
1. Introduction au tutoriel
Kyutai TTS 1.6B (en-fr) est un modèle vocal bilingue anglais-français à grande échelle, publié par l'équipe Kyutai le 15 octobre 2024. Lors de tests de synthèse vocale en continu, ce modèle surpasse les systèmes TTS hors ligne traditionnels de 751 et 421 TP3T respectivement dans les catégories « sortie en temps réel de textes longs » et « naturel prosodique bilingue ». Il atteint également des performances de pointe sur des bases de données de synthèse vocale telles que Moshi Benchmark et Audio-Language Alignment Dataset. De plus, le modèle présente des fonctionnalités rarement observées dans les systèmes précédents, notamment la génération de flux d'entrée-sortie, la commutation sans exemple entre l'anglais et le français, la sélection de la parole basée sur des plongements lexicaux précalculés et une inférence rapide avec un nombre de jetons audio ajusté dynamiquement. Les résultats de l'article associé sont disponibles. Apprentissage de séquence à séquence en flux continu avec modélisation de flux retardés.
Ce tutoriel utilise une seule carte graphique RTX 4090. Seules l'anglais et le français sont pris en charge.
2. Exemples de projets
standard-tts

streaming-tts

3. Étapes de l'opération
1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation
Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Veuillez patienter 2 à 3 minutes, puis actualiser la page. Avec le navigateur Safari, la lecture audio peut être retardée et nécessite un téléchargement préalable.

Informations sur la citation
@techreport{kyutai2025streaming,
title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling},
author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez},
year={2025},
eprint={2509.08753},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.08753},
}Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.