Step-Audio-TTS-3B 実用レベルの方言音声生成モデル


1. チュートリアルの概要
Step-Audioは、音声理解と生成制御を統合した業界初の製品レベルのオープンソースリアルタイム音声対話システムです。2025年にStepfun-AIチームによってオープンソース化されました。多言語生成(中国語、英語、日本語など)、音声感情(喜び、悲しみなど)、方言(広東語、四川語など)、制御可能な発話速度とリズムスタイルをサポートし、RAPやハミングなどをサポートします。
本教程以 Step-Audio-TTS-3B 作为演示,算力资源采用「单卡 RTX4090」。
サポート機能:
- 一般的な音声合成
公式サイトのデフォルトの音声キャラクターTingtingをプリセットし、Nezhaの音声を追加し、多言語生成、感情、方言などの設定をサポートします。
- 音楽合成
公式サイトのデフォルトの音声キャラクターTingtingをプリセットし、Nezhaの声を追加し、RAPとハミングをサポート
- 音声クローン
ユーザーがカスタムオーディオをアップロードし、オーディオのテキストコンテンツを入力し、必要に応じてロール名を定義できるようにサポートします。
2. 操作手順
1. コンテナを起動後、API アドレスをクリックして Web インターフェイスに入ります (「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。1 分ほど待ってからもう一度お試しください)。

2.ウェブページに入ると、多機能音声合成を実行できます
1. 一般的な音声合成

一般的な音声合成
2. RAP/ハミングモード

RAP / ハムモード
3. 音声クローン

音声クローン
ヒント: 生成するテキストの前に (RAP) または (humming) を入力すると、RAP やハミングのサウンド クローン効果をすばやく生成できます。
交流とディスカッション
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。