Command Palette
Search for a command to run...
IndexTTS-2: Die Engpässe Der Autoregressiven TTS-Dauer Und Emotionskontrolle Überwinden
1. Einführung in das Tutorial

IndexTTS-2 ist ein neues Text-to-Speech-Modell (TTS), das vom Bilibili Voice-Team im Juni 2025 als Open Source veröffentlicht wurde. Das Modell erzielte wichtige Durchbrüche in der emotionalen Ausdrucks- und Dauerkontrolle und ist das erste autoregressive TTS-Modell mit präziser Dauerkontrolle. Es unterstützt Zero-Sample-Voice-Cloning und kann Klangfarbe, Rhythmus und Sprechstil mit nur einer Audiodatei präzise reproduzieren und unterstützt mehrere Sprachen. IndexTTS-2 implementiert eine emotionale Klangfarbentrennungskontrolle, wobei Nutzer die Quelle von Klangfarbe und Emotion unabhängig voneinander festlegen können. Das Modell verfügt über multimodale emotionale Eingabemöglichkeiten und unterstützt die Steuerung von Emotionen durch emotionales Referenzaudio, emotionalen Beschreibungstext oder emotionale Vektoren. Die relevanten Ergebnisse der Studie sind:IndexTTS2: Ein Durchbruch in der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech".
Die in diesem Tutorial verwendeten Rechenressourcen sind eine einzelne RTX 4090-Karte.
2. Effektanzeige
Dasselbe wie die Sprachreferenz

Verwenden Sie Audio mit Emotionsreferenzen

Verwenden Sie Emotionsvektoren

Verwenden Sie Textbeschreibungen, um Emotionen zu steuern

3. Bedienungsschritte
1. Starten Sie den Container

2. Anwendungsschritte
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.
Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.
1. Gleich wie die Sprachreferenz

Spezifische Parameter:
- Erweiterte Parametereinstellungen:
- do_sample: ob eine Stichprobennahme durchgeführt werden soll.
- Temperatur: steuert die Glätte der Wahrscheinlichkeitsverteilung während der Stichprobennahme.
- top_p: Kernel-Sampling.
- top_k: Bei jedem Generierungsschritt werden nur die K Token mit der höchsten Wahrscheinlichkeit berücksichtigt.
- num_beams: Strahlsuchbreite.
- repetition_penalty: Wiederholungsstrafe, die die Wahrscheinlichkeit verringert, dass das Modell wiederholt dasselbe Token generiert.
- length_penalty: Längenstrafe, die das Modell dazu ermutigt oder davon abhält, längere oder kürzere Sequenzen zu generieren. Dies ist hauptsächlich dann effektiv, wenn num_beams > 1 verwendet wird.
- max_mel_tokens: Die maximale Anzahl generierter Token.
2. Verwenden Sie Audio mit Emotionsreferenz

3. Verwenden Sie Emotionsvektoren

Emotionale Kontrollparameter:
- Glücklich, Angewidert, Wütend, Melancholisch, Traurig, Überrascht, Ängstlich, Ruhig: Diese entsprechen acht grundlegenden emotionalen Dimensionen. Der Wert jedes Schiebereglers (normalerweise zwischen 0,0 und 1,0) gibt die Intensität der Emotion an, die in der endgültigen Rede zum Ausdruck kommen soll.
4. Verwenden Sie Textbeschreibungen, um Emotionen zu kontrollieren

4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@article{zhou2025indextts2,
title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
journal={arXiv preprint arXiv:2506.21619},
year={2025}
}
@article{deng2025indextts,
title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
journal={arXiv preprint arXiv:2502.05512},
year={2025},
doi={10.48550/arXiv.2502.05512},
url={https://arxiv.org/abs/2502.05512}
}KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.