Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 8 Monaten

1. Einführung in das Tutorial

IndexTTS-2 ist ein neuartiges Text-to-Speech-Modell (TTS), das im Juni 2025 vom Bilibili Voice Team als Open Source veröffentlicht wurde. Das Modell erzielt bedeutende Fortschritte in der Emotionsdarstellung und der Dauersteuerung und ist das erste autoregressive TTS-Modell, das eine präzise Dauersteuerung ermöglicht. Es unterstützt Zero-Sample Voice Cloning, wodurch Klangfarbe, Rhythmus und Sprechstil aus einer einzigen Audiodatei exakt repliziert werden, und unterstützt mehrere Sprachen. IndexTTS-2 implementiert eine Emotions-Klangfarben-Trennung, sodass Benutzer Klangfarbe und Emotionsquellen unabhängig voneinander festlegen können. Das Modell bietet multimodale Eingabemöglichkeiten für Emotionen und unterstützt die Emotionssteuerung durch Referenzaudio, beschreibenden Text oder Emotionsvektoren. Zugehörige Forschungsarbeiten sind verfügbar. IndexTTS2: Ein Durchbruch in der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech .

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektanzeige

Dasselbe wie die Sprachreferenz

Verwenden Sie Audio mit Emotionsreferenzen

Verwenden Sie Emotionsvektoren

Verwenden Sie Textbeschreibungen, um Emotionen zu steuern

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

1. Gleich wie die Sprachreferenz

Spezifische Parameter:

Erweiterte Parametereinstellungen:
- do_sample: ob eine Stichprobennahme durchgeführt werden soll.
- Temperatur: steuert die Glätte der Wahrscheinlichkeitsverteilung während der Stichprobennahme.
- top_p: Kernel-Sampling.
- top_k: Bei jedem Generierungsschritt werden nur die K Token mit der höchsten Wahrscheinlichkeit berücksichtigt.
- num_beams: Strahlsuchbreite.
- repetition_penalty: Wiederholungsstrafe, die die Wahrscheinlichkeit verringert, dass das Modell wiederholt dasselbe Token generiert.
- length_penalty: Längenstrafe, die das Modell dazu ermutigt oder davon abhält, längere oder kürzere Sequenzen zu generieren. Dies ist hauptsächlich dann effektiv, wenn num_beams > 1 verwendet wird.
- max_mel_tokens: Die maximale Anzahl generierter Token.

2. Verwenden Sie Audio mit Emotionsreferenz

3. Verwenden Sie Emotionsvektoren

Emotionale Kontrollparameter:

Glücklich, Angewidert, Wütend, Melancholisch, Traurig, Überrascht, Ängstlich, Ruhig: Diese entsprechen acht grundlegenden emotionalen Dimensionen. Der Wert jedes Schiebereglers (normalerweise zwischen 0,0 und 1,0) gibt die Intensität der Emotion an, die in der endgültigen Rede zum Ausdruck kommen soll.

4. Verwenden Sie Textbeschreibungen, um Emotionen zu kontrollieren

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Notebook-Übersicht

Stufe

Einsteiger

Thema

Audio Generative KI

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 8 Monaten

1. Einführung in das Tutorial

Dieses Tutorial verwendet eine einzelne RTX 5090-Grafikkarte als Rechenressource.

2. Effektanzeige

Dasselbe wie die Sprachreferenz

Verwenden Sie Audio mit Emotionsreferenzen

Verwenden Sie Emotionsvektoren

Verwenden Sie Textbeschreibungen, um Emotionen zu steuern

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Bei Verwendung des Safari-Browsers wird der Ton möglicherweise nicht direkt abgespielt und muss vor der Wiedergabe heruntergeladen werden.

1. Gleich wie die Sprachreferenz

Spezifische Parameter:

Erweiterte Parametereinstellungen:
- do_sample: ob eine Stichprobennahme durchgeführt werden soll.
- Temperatur: steuert die Glätte der Wahrscheinlichkeitsverteilung während der Stichprobennahme.
- top_p: Kernel-Sampling.
- top_k: Bei jedem Generierungsschritt werden nur die K Token mit der höchsten Wahrscheinlichkeit berücksichtigt.
- num_beams: Strahlsuchbreite.
- repetition_penalty: Wiederholungsstrafe, die die Wahrscheinlichkeit verringert, dass das Modell wiederholt dasselbe Token generiert.
- length_penalty: Längenstrafe, die das Modell dazu ermutigt oder davon abhält, längere oder kürzere Sequenzen zu generieren. Dies ist hauptsächlich dann effektiv, wenn num_beams > 1 verwendet wird.
- max_mel_tokens: Die maximale Anzahl generierter Token.

2. Verwenden Sie Audio mit Emotionsreferenz

3. Verwenden Sie Emotionsvektoren

Emotionale Kontrollparameter:

Glücklich, Angewidert, Wütend, Melancholisch, Traurig, Überrascht, Ängstlich, Ruhig: Diese entsprechen acht grundlegenden emotionalen Dimensionen. Der Wert jedes Schiebereglers (normalerweise zwischen 0,0 und 1,0) gibt die Intensität der Emotion an, die in der endgültigen Rede zum Ausdruck kommen soll.

4. Verwenden Sie Textbeschreibungen, um Emotionen zu kontrollieren

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

Notebook-Übersicht

Stufe

Einsteiger

Thema

Audio Generative KI

Higgs Audio V2: Die Ausdruckskraft Der Sprachgenerierung Neu Definieren

vor einem Jahr

Chatterbox TTS: Demo Zur Sprachsynthese

vor einem Jahr

Orpheus TTS: Ein Mehrsprachiges Text-to-Speech-Modell

vor einem Jahr

Dia-1.6B: Demo Zur Emotionalen Sprachsynthese

vor einem Jahr

Step-Audio-TTS-3B-Modell Zur Dialektsprachgenerierung Auf Produktionsebene

vor einem Jahr

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

vor 7 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

IndexTTS-2: Die Engpässe Der Autoregressiven TTS-Dauer Und Emotionskontrolle Überwinden

1. Einführung in das Tutorial

2. Effektanzeige

Dasselbe wie die Sprachreferenz

Verwenden Sie Audio mit Emotionsreferenzen

Verwenden Sie Emotionsvektoren

Verwenden Sie Textbeschreibungen, um Emotionen zu steuern

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

1. Gleich wie die Sprachreferenz

2. Verwenden Sie Audio mit Emotionsreferenz

3. Verwenden Sie Emotionsvektoren

4. Verwenden Sie Textbeschreibungen, um Emotionen zu kontrollieren

Zitationsinformationen

Notebook-Übersicht

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

IndexTTS-2: Die Engpässe Der Autoregressiven TTS-Dauer Und Emotionskontrolle Überwinden

1. Einführung in das Tutorial

2. Effektanzeige

Dasselbe wie die Sprachreferenz

Verwenden Sie Audio mit Emotionsreferenzen

Verwenden Sie Emotionsvektoren

Verwenden Sie Textbeschreibungen, um Emotionen zu steuern

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

1. Gleich wie die Sprachreferenz

2. Verwenden Sie Audio mit Emotionsreferenz

3. Verwenden Sie Emotionsvektoren

4. Verwenden Sie Textbeschreibungen, um Emotionen zu kontrollieren

Zitationsinformationen

Notebook-Übersicht

Verwandte Notebooks

Higgs Audio V2: Die Ausdruckskraft Der Sprachgenerierung Neu Definieren

Chatterbox TTS: Demo Zur Sprachsynthese

Orpheus TTS: Ein Mehrsprachiges Text-to-Speech-Modell

Dia-1.6B: Demo Zur Emotionalen Sprachsynthese

Step-Audio-TTS-3B-Modell Zur Dialektsprachgenerierung Auf Produktionsebene

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

IndexTTS-2: Die Engpässe Der Autoregressiven TTS-Dauer Und Emotionskontrolle Überwinden

1. Einführung in das Tutorial

2. Effektanzeige

Dasselbe wie die Sprachreferenz

Verwenden Sie Audio mit Emotionsreferenzen

Verwenden Sie Emotionsvektoren

Verwenden Sie Textbeschreibungen, um Emotionen zu steuern

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

1. Gleich wie die Sprachreferenz

2. Verwenden Sie Audio mit Emotionsreferenz

3. Verwenden Sie Emotionsvektoren

4. Verwenden Sie Textbeschreibungen, um Emotionen zu kontrollieren

Zitationsinformationen

Notebook-Übersicht

Verwandte Notebooks

Higgs Audio V2: Die Ausdruckskraft Der Sprachgenerierung Neu Definieren

Chatterbox TTS: Demo Zur Sprachsynthese

Orpheus TTS: Ein Mehrsprachiges Text-to-Speech-Modell

Dia-1.6B: Demo Zur Emotionalen Sprachsynthese

Step-Audio-TTS-3B-Modell Zur Dialektsprachgenerierung Auf Produktionsebene

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

KI mit KI entwickeln

HyperAI Newsletters

Verwandte Notebooks

Higgs Audio V2: Die Ausdruckskraft Der Sprachgenerierung Neu Definieren

Chatterbox TTS: Demo Zur Sprachsynthese

Orpheus TTS: Ein Mehrsprachiges Text-to-Speech-Modell

Dia-1.6B: Demo Zur Emotionalen Sprachsynthese

Step-Audio-TTS-3B-Modell Zur Dialektsprachgenerierung Auf Produktionsebene

F5-E2 TTS Klont Jeden Ton in Nur 3 Sekunden

Verwandte Notebooks

Higgs Audio V2: Die Ausdruckskraft Der Sprachgenerierung Neu Definieren