HyperAIHyperAI

Command Palette

Search for a command to run...

kyutai-tts-1.6 b-en_fr Audio Generation

Datum

vor einem Monat

Größe

543.77 MB

Lizenz

Apache 2.0

Paper-URL

arxiv.org

1. Einführung in das Tutorial

Modelllizenz

Kyutai TTS 1.6B (en-fr) ist ein umfangreiches, englisch-französisches zweisprachiges Sprachmodell, das vom Kyutai-Team am 15. Oktober 2024 veröffentlicht wurde. In Streaming-TTS-Benchmarks übertrifft dieses Modell herkömmliche Offline-TTS um 751 TP3T bzw. 421 TP3T in den Kategorien „Echtzeitausgabe langer Texte“ und „Zweisprachige prosodische Natürlichkeit“. Es erzielt auch in TTS-Benchmarks wie dem Moshi Benchmark und dem Audio-Language Alignment Dataset Bestleistungen. Darüber hinaus weist das Modell Funktionen auf, die in früheren Systemen selten zu finden sind, darunter die Generierung von Input-Output-Streaming, Zero-Shot-Umschaltung zwischen Englisch und Französisch, Sprachauswahl basierend auf vorab berechneten Einbettungen und schnelle Inferenz mit dynamisch angepassten Audio-Token-Zählungen. Zugehörige wissenschaftliche Arbeiten sind verfügbar. Streaming-Sequenz-zu-Sequenz-Lernen mit Modellierung verzögerter Datenströme.

Dieses Tutorial verwendet eine einzelne RTX 4090-Grafikkarte. Es werden nur Englisch und Französisch unterstützt.

2. Projektbeispiele

Standard-TTS

Streaming-TTS

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Anwendungsschritte

Wird „Bad Gateway“ angezeigt, bedeutet dies, dass das Modell initialisiert wird. Bitte warten Sie ca. 2–3 Minuten und aktualisieren Sie dann die Seite. Bei Verwendung des Safari-Browsers wird die Audiowiedergabe möglicherweise nicht direkt abgespielt und muss zuerst heruntergeladen werden.

Zitationsinformationen

@techreport{kyutai2025streaming,
      title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling}, 
      author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez},
      year={2025},
      eprint={2509.08753},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2509.08753}, 
}

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp