Command Palette
Search for a command to run...
Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

要約
従来の自己回帰型の大規模なテキストから音声への変換(TTS)モデルは、音声の自然さにおいて優れた性能を発揮しているが、トークン単位での逐次生成メカニズムのため、合成音声の持続時間の精密な制御が困難である。これは、映像の字幕吹き替えなど、音声と映像の厳密な同期が求められる応用において、顕著な制約となる。本論文では、音声持続時間の制御を実現する新規で汎用的かつ自己回帰モデルに適した手法を提案する「IndexTTS2」を紹介する。本手法は2つの生成モードをサポートする。1つは、生成するトークン数を明示的に指定することで、音声持続時間の精密制御を可能にするものであり、もう1つはトークン数を指定せずに自己回帰的に音声を自由に生成しつつ、入力プロンプトの韻律的特徴を忠実に再現するものである。さらに、IndexTTS2は感情表現と話者アイデンティティの分離を実現し、音色と感情の独立した制御を可能にしている。ゼロショット設定において、モデルは音色プロンプトから得られるターゲット音色を正確に再構成するとともに、スタイルプロンプトから指定された感情のトーンを完璧に再現することができる。また、感情表現が強い場合の音声の明瞭性を向上させるために、GPTの潜在表現を導入し、生成音声の安定性を高めるための新規な三段階訓練フレームワークを設計した。さらに、感情制御のハードルを低くするために、Qwen3を微調整してテキスト記述に基づくソフトインストラクション機構を構築し、希望する感情的傾向を持つ音声の生成を効果的に誘導できるようにした。最後に、複数のデータセットにおける実験結果から、IndexTTS2が最先端のゼロショットTTSモデルと比較して、単語誤り率(WER)、話者類似度、感情の忠実度の観点で優れた性能を発揮することが示された。音声サンプルは以下のURLから公開されている:this https URL