HyperAI超神経

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

F5-TTS: 音声クローン、2人対話、マルチティンバーミキシング

チュートリアルの紹介

该教程仅需 RTX 4090 即可启动。

このチュートリアルには、F5-TTS と E2 TTS という 2 つのモデルのデモ使用が含まれています。

F5-TTS は、2024 年に上海交通大学、ケンブリッジ大学、吉利汽車研究所 (寧波) 有限公司が共同でオープンソース化した高性能テキスト読み上げ (TTS) システムです。 - フローマッチングの自己回帰生成手法には、Diffusion Transformer (DiT) テクノロジーが組み込まれています。関連する論文結果は「F5-TTS: フロー マッチングを使用して流暢で忠実なスピーチを偽装するおとぎ話者”。このシステムは、追加の監視なしでゼロショット学習を通じて、自然で滑らかで忠実な音声を迅速に生成できます。 F5-TTSは中国語や英語などの多言語合成に対応しており、長文でも効果的な音声合成が可能です。さらに、テキストの内容に応じて合成音声の感情表現を調整できる感情コントロール機能や、必要に応じて音声の再生速度を調整できるスピードコントロール機能も備えています。このシステムは 100,000 時間の大規模データセットでトレーニングされ、優れたパフォーマンスと汎化機能を実証しました。 F5-TTS の主な機能には、ゼロサンプル サウンド クローン作成、速度制御、感情表現制御、長いテキスト合成、および多言語サポートが含まれます。その技術原則には、フロー マッチング、拡散トランス (DiT)、ConvNeXt V2 テキスト表現の改善、Sway サンプリング戦略、およびエンドツーエンドのシステム設計が含まれます。 F5-TTS には、オーディオ ブック、音声アシスタント、語学学習、ニュース放送、ゲームの吹き替えなどを含む幅広いアプリケーション シナリオがあり、さまざまな商用および非商用用途に強力な音声合成機能を提供します。

E2 TTS は、「恥ずかしいほど簡単なテキスト読み上げ」の略で、簡素化されたプロセスを通じて人間レベルの自然さと話者の類似性を実現する高度なテキスト読み上げ (TTS) システムです。 E2 TTS の中核は、完全に非自己回帰的な性質にあります。つまり、段階的に生成する必要がなく、音声シーケンス全体を一度に生成でき、高品質の音声出力を維持しながら生成速度が大幅に向上します。関連する論文結果は「E2 TTS: 恥ずかしいほど簡単な完全非自己回帰ゼロショット TTS」が SLT 2024 に承認されました。 E2 TTS フレームワークでは、テキスト入力はパディング マーカーを備えた一連の文字に変換されます。次に、フロー マッチング ベースのメル スペクトログラム ジェネレーターが、オーディオ充填タスクに基づいてトレーニングされます。これまでの多くの研究とは異なり、追加のコンポーネント (持続時間モデル、書記素から音素への変換など) や複雑な技術 (単調整列検索など) を必要としません。 E2 TTS は、そのシンプルさにもかかわらず、Voicebox や NaturalSpeech 3 などの以前の作品に匹敵する、またはそれを超える最先端のゼロサンプル TTS 機能を実装しています。 E2 TTS のシンプルさにより、入力表現の柔軟性も可能になります。

该教程支持如下模型和功能:

2 个模型检查点:
- F5-TTS
- E2 TTS

3 个功能:
- 单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
- 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
- 多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

ステップの実行

コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

1. 一人音声生成(Batched TTS)

TTS 機能を選択し、必要に応じて音声およびテキスト プロンプトをアップロードし、必要に応じて詳細パラメータを設定します。

  • オーディオ: 1 人が話しているクリアで高品質な音声をアップロードすると、モデルがその音声を模倣して生成します。
  • テキストプロンプトの単語: 生成するテキスト。

高度なパラメータ

  • 参考テキスト: 空白のままにすると、参照音声が自動的に文字起こしされます。テキストを入力すると、自動文字起こしが無効になります。
  • 無音部分を削除する: このモデルは、特に長いオーディオの場合、無音になる傾向があります。必要に応じて、無音部分を手動で削除できます。これは実験的な機能であるため、奇妙な結果が生じる可能性があることに注意してください。これにより、ビルド時間も増加します。
  • カスタム分割単語: 分割するカスタム単語をカンマで区切って入力します。デフォルトのリストを使用するには、空白のままにします。
  • スピード: 生成される音声速度を制御します

以下に示すように

2. 複数人の音声生成(Podcast Generation)

選ぶ ポッドキャストの生成 機能、以下の要件に従って、複数人の音声とテキストのプロンプト単語をアップロードします。 この機能は、モデルを使用して 2 人の会話を模倣するためのものであり、2 人の名前と音声を使用する必要があります。

  • オーディオ: クリアで高品質な音声を 2 つずつアップロードすると、モデルはその音声を模倣して生成します。
  • 参考テキスト: デフォルトでは空白のままにして、参照音声を自動的に文字起こしします。テキストを入力すると、自動文字起こしが無効になります。
  • モデルを選択してください: デフォルトは F5-TTS です

以下に示すように

3. 複数の音声タイプの生成

複数の音声タイプの生成機能を選択し、次の要件に従ってさまざまな感情の音声およびテキスト プロンプトをアップロードします。この機能は、モデルを使用して感情をシミュレートし、さまざまな感情に応じて音声を生成します。

  • オーディオ: さまざまな感情を持つクリアで高品質のオーディオを複数アップロードすると、モデルがそのオーディオを模倣して生成します。
  • 参考テキスト: デフォルトでは空白のままにして、参照音声を自動的に文字起こしします。テキストを入力すると、自動文字起こしが無効になります。
  • モデルを選択してください: デフォルトは F5-TTS です

たとえば、テキストを生成するために 5 つの音声入力 (通常、驚き、悲しみ、怒り、ささやき、叫び) をアップロードします。

(普通) こんにちは、サンドイッチをお願いしたいのですが (驚き) パンがなくなったってどういうことですか? (悲しい) 本当はサンドイッチが欲しかったのですが… (怒) わかってるでしょう、あなたもあなたも。小さな店、最悪だ! (ささやき) 今すぐ家に帰って泣くよ (叫び) なぜ私が?!

次のように、さまざまな感情を含むスピーチを生成できます。

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。