オンラインチュートリアル | 3つの音声クローンモデルの実際の評価、GPT-SoVITSは「十一娘娘」の特徴を正確に把握

* Fish Speech v1.4 音声クローニング - テキスト読み上げツールのデモ:

* F5-E2 TTS は、わずか 3 秒であらゆるサウンドを複製します。

今日は、これら 3 つのサウンドクローニングオープンソースモデルについて詳しく紹介し、同じオリジナルオーディオとプロンプトを使用して、実際の使用効果を評価してみます。

GPT-SoVITS オーディオ合成

* 発売時期:2022年

※発行機関：Bステーションアップマスター華爾ブク

* ワンクリック展開:

このモデルはSoVITS+Transformer音声コーディング技術を使用しており、発売されるとすぐにAI音声合成界でセンセーションを巻き起こしました。忠実度の高い音声合成効果は他に類を見ません。わずか 5 秒のサウンドサンプルでも、ゼロサンプルのテキスト音声変換 (TTS) を実現できます。

映画「哪吒」の詩季娘娘の声を例にとると、GPT-SoVITS を使用すると、映画の中で詩季娘娘が言った定番のセリフの音声サンプルをサンプルとして収集するだけで、彼女の美しく生き生きとした力強い声を正確に再現できます。

Fish Speech v1.4 音声クローニング

* 発売時期:2024年

※発行機関：フィッシュオーディオチーム

* ワンクリック展開:

このモデルは約15万時間分のデータでトレーニングされており、中国語、日本語、英語に堪能です。言語処理能力は人間のレベルに近く、音声表現は豊かで多彩です。ユーザーは、音色、ピッチ、話す速度を自由に調整して、独自の音声を簡単に作成し、さまざまなクリエイティブなシナリオでのキャラクターの声に対する各人の個別のニーズを満たすことができます。

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

* 発売時期:2024年

※発行機関：上海交通大学、ケンブリッジ大学、吉利汽車研究所（寧波）有限公司

* ワンクリック展開:

F5 TTS は、ストリームマッチングに基づく非自己回帰生成方式と Diffusion Transformer (DiT) テクノロジーを組み合わせたもので、追加の監督なしにゼロショット学習を通じて、元のテキストに忠実で自然で流暢な音声を迅速に生成できます。 E2 TTS の核心は、完全に非自己回帰的な機能にあります。段階的な生成を必要とせず、音声シーケンス全体を一度に生成できるため、生成速度が大幅に向上し、高品質の音声出力が維持され、3 秒でマルチトーン混合クローンが実現します。

このモデルは 3 つの機能をサポートしています。

* 一人音声生成（バッチTTS）：アップロードされた音声に基づいてテキストを生成します。

* ポッドキャスト生成:2 人の音声に基づいて 2 人の会話をシミュレートします。

* 複数の音声タイプの生成:同じ話者の異なる感情の音声に基づいて、異なる感情の音声を生成できます。

以上が、今回ご用意したサウンドクローニングモデルのレビューです。ご興味がございましたら、ぜひご体験ください！

オンラインチュートリアル | 3つの音声クローンモデルの実際の評価、GPT-SoVITSは「十一娘娘」の特徴を正確に把握

1年前

情報

人工知能

HyperAI の公式 Web サイトの「チュートリアル」セクションがオンラインになりました。

* GPT-SoVITS オーディオ合成オンラインデモ:

* Fish Speech v1.4 音声クローニング - テキスト読み上げツールのデモ:

* F5-E2 TTS は、わずか 3 秒であらゆるサウンドを複製します。

GPT-SoVITS オーディオ合成

* 発売時期:2022年

※発行機関：Bステーションアップマスター華爾ブク

* ワンクリック展開:

Fish Speech v1.4 音声クローニング

* 発売時期:2024年

※発行機関：フィッシュオーディオチーム

* ワンクリック展開:

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

* 発売時期:2024年

※発行機関：上海交通大学、ケンブリッジ大学、吉利汽車研究所（寧波）有限公司

* ワンクリック展開: