Command Palette
Search for a command to run...
kyutai-tts-1.6 b-en_fr Audio Generation
Datum
Größe
543.77 MB
Lizenz
Apache 2.0
Paper-URL
1. Einführung in das Tutorial
Kyutai TTS 1.6B (en-fr) ist ein umfangreiches, englisch-französisches zweisprachiges Sprachmodell, das vom Kyutai-Team am 15. Oktober 2024 veröffentlicht wurde. In Streaming-TTS-Benchmarks übertrifft dieses Modell herkömmliche Offline-TTS um 751 TP3T bzw. 421 TP3T in den Kategorien „Echtzeitausgabe langer Texte“ und „Zweisprachige prosodische Natürlichkeit“. Es erzielt auch in TTS-Benchmarks wie dem Moshi Benchmark und dem Audio-Language Alignment Dataset Bestleistungen. Darüber hinaus weist das Modell Funktionen auf, die in früheren Systemen selten zu finden sind, darunter die Generierung von Input-Output-Streaming, Zero-Shot-Umschaltung zwischen Englisch und Französisch, Sprachauswahl basierend auf vorab berechneten Einbettungen und schnelle Inferenz mit dynamisch angepassten Audio-Token-Zählungen. Zugehörige wissenschaftliche Arbeiten sind verfügbar. Streaming-Sequenz-zu-Sequenz-Lernen mit Modellierung verzögerter Datenströme.
Dieses Tutorial verwendet eine einzelne RTX 4090-Grafikkarte. Es werden nur Englisch und Französisch unterstützt.
2. Projektbeispiele
Standard-TTS

Streaming-TTS

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte
Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie ca. 2–3 Minuten und aktualisieren Sie dann die Seite. Bei Verwendung des Safari-Browsers wird die Audiowiedergabe möglicherweise nicht direkt abgespielt und muss zuerst heruntergeladen werden.

Zitationsinformationen
@techreport{kyutai2025streaming,
title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling},
author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez},
year={2025},
eprint={2509.08753},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.08753},
}KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.