Command Palette
Search for a command to run...
IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie
Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

Abstract
Bekannte autoregressive große Text-zu-Sprache-Modelle (TTS) zeichnen sich durch hohe Natürlichkeit der Sprachausgabe aus, doch ihre tokenweisen Generierungsmechanismen erschweren eine präzise Steuerung der Länge der synthetisierten Sprache. Dies stellt eine erhebliche Einschränkung dar, insbesondere in Anwendungen, die eine strenge Audio-Video-Synchronisation erfordern, wie beispielsweise die Untertitelung von Videos. In dieser Arbeit stellen wir IndexTTS2 vor, ein neuartiges, allgemein anwendbares und autoregressiv-modellfreundliches Verfahren zur Steuerung der Sprachdauer. Das Verfahren unterstützt zwei Generierungsmodi: Im ersten Modus wird die Anzahl der generierten Tokens explizit festgelegt, wodurch die Sprachdauer präzise gesteuert werden kann; im zweiten Modus erfolgt die Sprachgenerierung frei in autoregressiver Weise ohne Vorgabe der Tokenanzahl, wobei dennoch die prosodischen Merkmale des Eingabeprompts treu wiedergegeben werden. Darüber hinaus erreicht IndexTTS2 eine Entkoppelung zwischen emotionaler Ausdrucksweise und Sprecheridentität, wodurch Timbre und Emotion unabhängig gesteuert werden können. Im Zero-Shot-Szenario kann das Modell den gewünschten Timbre (aus dem Timbre-Prompt) präzise rekonstruieren und gleichzeitig die vorgegebene emotionale Stimmung (aus dem Stil-Prompt) perfekt nachbilden. Um die Sprachklarheit bei stark emotionalen Ausdrücken zu verbessern, integrieren wir GPT-Latentrepräsentationen und entwickeln ein neuartiges dreistufiges Trainingsparadigma, das die Stabilität der generierten Sprache erhöht. Zudem senken wir die Einstiegshürde für die emotionale Steuerung durch die Einführung einer weichen Anweisungsmechanik, die auf Textbeschreibungen basiert und durch Fine-Tuning von Qwen3 realisiert wird, wodurch die Generierung von Sprache mit der gewünschten emotionalen Ausrichtung effektiv geleitet wird. Abschließend zeigen experimentelle Ergebnisse auf mehreren Datensätzen, dass IndexTTS2 gegenwärtige State-of-the-Art-Modelle im Zero-Shot-Bereich hinsichtlich Wortfehlerquote, Sprecherähnlichkeit und emotionaler Treue übertrifft. Audiomuster sind unter folgender URL verfügbar: this https URL
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.