HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie

Abstract

Bekannte autoregressive große Text-zu-Sprache-Modelle (TTS) zeichnen sich durch hohe Natürlichkeit der Sprachausgabe aus, doch ihre tokenweisen Generierungsmechanismen erschweren eine präzise Steuerung der Länge der synthetisierten Sprache. Dies stellt eine erhebliche Einschränkung dar, insbesondere in Anwendungen, die eine strenge Audio-Video-Synchronisation erfordern, wie beispielsweise die Untertitelung von Videos. In dieser Arbeit stellen wir IndexTTS2 vor, ein neuartiges, allgemein anwendbares und autoregressiv-modellfreundliches Verfahren zur Steuerung der Sprachdauer. Das Verfahren unterstützt zwei Generierungsmodi: Im ersten Modus wird die Anzahl der generierten Tokens explizit festgelegt, wodurch die Sprachdauer präzise gesteuert werden kann; im zweiten Modus erfolgt die Sprachgenerierung frei in autoregressiver Weise ohne Vorgabe der Tokenanzahl, wobei dennoch die prosodischen Merkmale des Eingabeprompts treu wiedergegeben werden. Darüber hinaus erreicht IndexTTS2 eine Entkoppelung zwischen emotionaler Ausdrucksweise und Sprecheridentität, wodurch Timbre und Emotion unabhängig gesteuert werden können. Im Zero-Shot-Szenario kann das Modell den gewünschten Timbre (aus dem Timbre-Prompt) präzise rekonstruieren und gleichzeitig die vorgegebene emotionale Stimmung (aus dem Stil-Prompt) perfekt nachbilden. Um die Sprachklarheit bei stark emotionalen Ausdrücken zu verbessern, integrieren wir GPT-Latentrepräsentationen und entwickeln ein neuartiges dreistufiges Trainingsparadigma, das die Stabilität der generierten Sprache erhöht. Zudem senken wir die Einstiegshürde für die emotionale Steuerung durch die Einführung einer weichen Anweisungsmechanik, die auf Textbeschreibungen basiert und durch Fine-Tuning von Qwen3 realisiert wird, wodurch die Generierung von Sprache mit der gewünschten emotionalen Ausrichtung effektiv geleitet wird. Abschließend zeigen experimentelle Ergebnisse auf mehreren Datensätzen, dass IndexTTS2 gegenwärtige State-of-the-Art-Modelle im Zero-Shot-Bereich hinsichtlich Wortfehlerquote, Sprecherähnlichkeit und emotionaler Treue übertrifft. Audiomuster sind unter folgender URL verfügbar: this https URL

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
IndexTTS2: Ein Durchbruch bei der emotional ausdrucksstarken und dauerkontrollierten autoregressiven Zero-Shot-Text-to-Speech-Technologie | Forschungsarbeiten | HyperAI