オンラインチュートリアル | 3つの音声クローンモデルの実際の評価、GPT-SoVITSは「十一娘娘」の特徴を正確に把握

春節映画「哪吒2」の興行収入は急上昇し、現在120億を突破し、中国映画として初めて興行収入100億の大台に到達し、世界映画史上興行収入トップ10入りを果たした。映画の中で、声優たちは生き生きとした声で登場人物に生き生きとした生命力を与えた。哪吒のスモーキーな声から太一真人の四川弁、そして詩季娘娘の生き生きとした声まで、大衆の間で幅広い議論を巻き起こし、舞台裏での吹き替え芸術を前面に押し出した。
吹き替え芸術の魅力といえば、『王者栄耀』のミーユエの白静静スキンがその好例だ。公式サイトは、映画「チャイニーズ・オデッセイ」で白静静役を演じた声優の王慧軍を特別に招待し、再び白静静の声を担当した。 「あなたも私も、手放すことも一種の神の意志だと信じなければなりません。」おなじみのセリフが鳴ると、多くの人々の若々しい憤りが一瞬にして呼び起こされ、プレイヤーたちはこの感情に「惜しみなく寄付」しました。
現在、音声クローン技術は急速に発展しています。先進的な音声クローンモデルを利用すれば、一般の人も時空を超えて、ワンクリックで好きなキャラクターの独特な声を再現し、「吹き替え中毒」を簡単に満たすことができます。現在のところ、主流のオープンソース モデルである GPT-SoVITS、Fish Speech v1.4、F5-E2 TTS の 3 つが際立っています。それぞれ独自の利点があり、さまざまなアプリケーション シナリオで重要な役割を果たします。映画やテレビ番組の制作、オーディオ コンテンツの制作、日常の楽しい吹き替えなど、さまざまな場面で活用できます。
HyperAI の公式 Web サイトの「チュートリアル」セクションがオンラインになりました。
* GPT-SoVITS オーディオ合成オンラインデモ:
https://hyper.ai/cn/tutorials/29812
* Fish Speech v1.4 音声クローニング - テキスト読み上げツールのデモ:
https://hyper.ai/cn/tutorials/34680
* F5-E2 TTS は、わずか 3 秒であらゆるサウンドを複製します。
https://hyper.ai/cn/tutorials/35468
今日は、これら 3 つのサウンド クローニング オープン ソース モデルについて詳しく紹介し、同じオリジナル オーディオとプロンプトを使用して、実際の使用効果を評価してみます。
GPT-SoVITS オーディオ合成
* 発売時期:2022年
※発行機関:Bステーションアップマスター 華爾ブク
* ワンクリック展開:
https://hyper.ai/cn/tutorials/29812
このモデルはSoVITS+Transformer音声コーディング技術を使用しており、発売されるとすぐにAI音声合成界でセンセーションを巻き起こしました。忠実度の高い音声合成効果は他に類を見ません。わずか 5 秒のサウンド サンプルでも、ゼロ サンプルのテキスト音声変換 (TTS) を実現できます。
映画「哪吒」の詩季娘娘の声を例にとると、GPT-SoVITS を使用すると、映画の中で詩季娘娘が言った定番のセリフの音声サンプルをサンプルとして収集するだけで、彼女の美しく生き生きとした力強い声を正確に再現できます。
Fish Speech v1.4 音声クローニング
* 発売時期:2024年
※発行機関:フィッシュオーディオチーム
* ワンクリック展開:
https://hyper.ai/cn/tutorials/34680
このモデルは約15万時間分のデータでトレーニングされており、中国語、日本語、英語に堪能です。言語処理能力は人間のレベルに近く、音声表現は豊かで多彩です。ユーザーは、音色、ピッチ、話す速度を自由に調整して、独自の音声を簡単に作成し、さまざまなクリエイティブなシナリオでのキャラクターの声に対する各人の個別のニーズを満たすことができます。
F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成
* 発売時期:2024年
※発行機関:上海交通大学、ケンブリッジ大学、吉利汽車研究所(寧波)有限公司
* ワンクリック展開:
https://hyper.ai/cn/tutorials/35468
F5 TTS は、ストリーム マッチングに基づく非自己回帰生成方式と Diffusion Transformer (DiT) テクノロジーを組み合わせたもので、追加の監督なしにゼロ ショット学習を通じて、元のテキストに忠実で自然で流暢な音声を迅速に生成できます。 E2 TTS の核心は、完全に非自己回帰的な機能にあります。段階的な生成を必要とせず、音声シーケンス全体を一度に生成できるため、生成速度が大幅に向上し、高品質の音声出力が維持され、3 秒でマルチトーン混合クローンが実現します。
このモデルは 3 つの機能をサポートしています。
* 一人音声生成(バッチTTS): アップロードされた音声に基づいてテキストを生成します。
* ポッドキャスト生成:2 人の音声に基づいて 2 人の会話をシミュレートします。
* 複数の音声タイプの生成:同じ話者の異なる感情の音声に基づいて、異なる感情の音声を生成できます。
以上が、今回ご用意したサウンドクローニングモデルのレビューです。ご興味がございましたら、ぜひご体験ください!