1. チュートリアルの概要

MegaTTS 3 プロジェクトは、ByteDance のインテリジェント作成チームによって 2025 年 3 月にリリースされたテキスト読み上げ (TTS) モデルです。主に入力テキストを高品質で自然で流暢な音声出力に変換するために使用されます。関連する論文の結果は以下の通りである。MegaTTS 3: ゼロショット音声合成のためのスパースアライメント強化潜在拡散変換器MegaTTS 3 は、革新的なスパースアラインメントガイド潜在拡散トランスデューサ (DiT) アルゴリズムを備えた TTS システムであり、最先端のゼロショット TTS 音声品質を実現し、アクセントの強さを非常に柔軟に制御できます。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

👉 このプロジェクトでは以下のモデルを提供します:

MegaTTS 3: 最先端のゼロショット TTS 音声品質を実現し、アクセントの強さを非常に柔軟に制御できる、革新的なスパース整列ガイド付き「潜在拡散トランスフォーマー」アルゴリズムを備えた TTS システムです。入力された音色を複製し、要件に応じて特定のオーディオコンテンツを生成するために使用できます。

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Webページに入ると、MegaTTS 3を使用できます

利用手順

① wavオーディオファイルとそれに対応する生成されたnpyファイルを別々にアップロードします。

②input_textに指定されたテキストを入力します。

③ 送信後、音声ファイル内の音色が複製され、input_text のテキストに対応する音声が生成されます。

❗️パラメータの説明:

タイムステップを推測する: モデルがサウンドを生成する時間ステップに影響し、通常は生成プロセスの時間ステップの数を制御します。モデルにはサウンドの特徴を調整するためのタイムステップが多くあるため、タイムステップが小さいほどサウンドが滑らかになる可能性があります。
明瞭度の重み: 音の明瞭度と聞き取りやすさを調整します。ウェイトを高くすると、サウンドがよりクリアになり、情報を正確に伝える必要があるシーンに適していますが、自然さが多少犠牲になる可能性があります。
類似度の重み: 生成されたサウンドが元のサウンドにどの程度似ているかを制御します。重みを高くすると、サウンドが元のサウンドに近くなり、対象の音声を忠実に再現する必要があるシナリオに適しています。

サンプルファイルを入手

ウェブサイトへ https://drive.google.com/drive/folders/1QhcHWcy20JfqWjgqZX1YM3I6i9u4oNlr、現在利用可能なすべての音色を含む 3 つのサブフォルダー (librispeech_testclean_40、official_test_case、user_batch_1-3) があります。フォルダに入ったら、wavファイルとnpyファイルを聞いてダウンロードします。

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝クヤシュドクこのチュートリアルを作成するためのプロジェクト参照情報は次のとおりです。

@article{jiang2025sparse,
  title={Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis},
  author={Jiang, Ziyue and Ren, Yi and Li, Ruiqi and Ji, Shengpeng and Ye, Zhenhui and Zhang, Chen and Jionghao, Bai and Yang, Xiaoda and Zuo, Jialong and Zhang, Yu and others},
  journal={arXiv preprint arXiv:2502.18924},
  year={2025}
}

@article{ji2024wavtokenizer,
  title={Wavtokenizer: an efficient acoustic discrete codec tokenizer for audio language modeling},
  author={Ji, Shengpeng and Jiang, Ziyue and Wang, Wen and Chen, Yifu and Fang, Minghui and Zuo, Jialong and Yang, Qian and Cheng, Xize and Wang, Zehan and Li, Ruiqi and others},
  journal={arXiv preprint arXiv:2408.16532},
  year={2024}
}