F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成
1. チュートリアルの概要

このチュートリアルには、F5-TTS と E2 TTS という 2 つのモデルのデモ使用が含まれています。
F5-TTS は、2024 年に上海交通大学、ケンブリッジ大学、吉利汽車研究所 (寧波) 有限公司が共同でオープンソース化した高性能テキスト読み上げ (TTS) システムです。 - フローマッチングの自己回帰生成手法には、Diffusion Transformer (DiT) テクノロジーが組み込まれています。関連する論文結果は「F5-TTS: フロー マッチングを使用して流暢で忠実なスピーチを偽装するおとぎ話者”。このシステムは、追加の監視なしでゼロショット学習を通じて、自然で滑らかで忠実な音声を迅速に生成できます。 F5-TTSは中国語や英語などの多言語合成に対応しており、長文でも効果的な音声合成が可能です。さらに、テキストの内容に応じて合成音声の感情表現を調整できる感情コントロール機能や、必要に応じて音声の再生速度を調整できるスピードコントロール機能も備えています。このシステムは 100,000 時間の大規模データセットでトレーニングされ、優れたパフォーマンスと汎化機能を実証しました。 F5-TTS の主な機能には、ゼロサンプル サウンド クローン作成、速度制御、感情表現制御、長いテキスト合成、および多言語サポートが含まれます。その技術原則には、フロー マッチング、拡散トランス (DiT)、ConvNeXt V2 テキスト表現の改善、Sway サンプリング戦略、およびエンドツーエンドのシステム設計が含まれます。 F5-TTS には、オーディオ ブック、音声アシスタント、語学学習、ニュース放送、ゲームの吹き替えなどを含む幅広いアプリケーション シナリオがあり、さまざまな商用および非商用用途に強力な音声合成機能を提供します。
E2 TTS は、「恥ずかしいほど簡単なテキスト読み上げ」の略で、簡素化されたプロセスを通じて人間レベルの自然さと話者の類似性を実現する高度なテキスト読み上げ (TTS) システムです。 E2 TTS の中核は、完全に非自己回帰的な性質にあります。つまり、段階的に生成する必要がなく、音声シーケンス全体を一度に生成でき、高品質の音声出力を維持しながら生成速度が大幅に向上します。関連する論文結果は「E2 TTS: 恥ずかしいほど簡単な完全非自己回帰ゼロショット TTS」が SLT 2024 に承認されました。 E2 TTS フレームワークでは、テキスト入力はパディング マーカーを備えた一連の文字に変換されます。次に、フロー マッチング ベースのメル スペクトログラム ジェネレーターが、オーディオ充填タスクに基づいてトレーニングされます。これまでの多くの研究とは異なり、追加のコンポーネント (持続時間モデル、書記素から音素への変換など) や複雑な技術 (単調整列検索など) を必要としません。 E2 TTS は、そのシンプルさにもかかわらず、Voicebox や NaturalSpeech 3 などの以前の作品に匹敵する、またはそれを超える最先端のゼロサンプル TTS 機能を実装しています。 E2 TTS のシンプルさにより、入力表現の柔軟性も可能になります。
该教程支持如下模型和功能: 2 个模型检查点: F5-TTS E2 TTS 3 个功能:单人语音生成(Batched TTS): 根据上传的音频进行文本生成。 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。
このチュートリアルでは、リソースとして単一の RTX 5090 カードを使用します。
2. プロジェクト例
1. 一人音声生成(Batched TTS)

2. 複数人の音声生成(Podcast Generation)

3. 複数の音声タイプの生成

3. 操作手順
1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順
「Bad Gateway」と表示される場合は、モデルが初期化中であることを意味します。モデルのサイズが大きいため、約9分待ってからページを更新してください。
Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。
1. 一人音声生成(Batched TTS)

パラメータの説明
- 参考テキスト: 空白のままにすると、参照音声が自動的に文字起こしされます。テキストを入力すると、自動文字起こしが無効になります。
- 無音部分を削除する: このモデルは、特に長いオーディオの場合、無音になる傾向があります。必要に応じて、無音部分を手動で削除できます。これは実験的な機能であるため、奇妙な結果が生じる可能性があることに注意してください。これにより、ビルド時間も増加します。
- カスタム分割単語: 分割するカスタム単語をカンマで区切って入力します。デフォルトのリストを使用するには、空白のままにします。
- スピード: 生成される音声速度を制御します
2. 複数人の音声生成(Podcast Generation)


3. 複数の音声タイプの生成

引用情報
@article{chen-etal-2024-f5tts,
title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching},
author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
journal={arXiv preprint arXiv:2410.06885},
year={2024},
}