HyperAI超神経

Step-Audio-TTS-3B 実用レベルの方言音声生成モデル

1. チュートリアルの概要

Step-Audioは、音声理解と生成制御を統合した業界初の製品レベルのオープンソースリアルタイム音声対話システムです。2025年にStepfun-AIチームによってオープンソース化されました。多言語生成(中国語、英語、日本語など)、音声感情(喜び、悲しみなど)、方言(広東語、四川語など)、制御可能な発話速度とリズムスタイルをサポートし、RAPやハミングなどをサポートします。

本教程以 Step-Audio-TTS-3B 作为演示,算力资源采用「单卡 RTX4090」。

サポート機能:

  • 一般的な音声合成

公式サイトのデフォルトの音声キャラクターTingtingをプリセットし、Nezhaの音声を追加し、多言語生成、感情、方言などの設定をサポートします。

  • 音楽合成

公式サイトのデフォルトの音声キャラクターTingtingをプリセットし、Nezhaの声を追加し、RAPとハミングをサポート

  • 音声クローン

ユーザーがカスタムオーディオをアップロードし、オーディオのテキストコンテンツを入力し、必要に応じてロール名を定義できるようにサポートします。

2. 操作手順

1. コンテナを起動後、API アドレスをクリックして Web インターフェイスに入ります (「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。1 分ほど待ってからもう一度お試しください)。

2.ウェブページに入ると、多機能音声合成を実行できます

1. 一般的な音声合成

一般的な音声合成

2. RAP/ハミングモード

RAP / ハムモード

3. 音声クローン

音声クローン

ヒント: 生成するテキストの前に (RAP) または (humming) を入力すると、RAP やハミングのサウンド クローン効果をすばやく生成できます。

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。