オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

1年前

DeepSeekオープンソースが引き起こした世界的な熱狂は、今も続いています。最近、Step StarとGeely Auto Groupが再び動き出し、Step-Audio-TTS-3Bモデルをオープンソース化し、再び業界で幅広い議論を巻き起こしました。

むかしむかし、方言データの多様性と複雑さ、およびモデルの一般化に対する高い需要により、音声クローニングモデルは方言ではパフォーマンスが低下します。Step-Audio-TTS-3B は、現地の言語の特徴を鮮明に翻訳できます。 LLM-Chatパラダイムの大規模合成データセットに基づいてトレーニングされており、言語の構造に対する深い洞察力を備えています。行間から言語の微妙な変化を捉えることができます。情熱的な四川語でも、9声と6声の広東語でも、そのリズムとトーンを正確に捉え、強い地元の習慣を表現します。

それだけでなく、RAP やハミング生成を実現した初の TTS モデルでもあり、音楽音声合成のギャップを埋めています。かつては、リズミカルなラップコンテンツを作成するにはプロの歌手が必要でした。現在、Step-Audio-TTS-3B の助けを借りて、ユーザーは正確なリズムとスムーズな流れを備えた RAP ボーカルをすばやく生成し、無限の可能性を刺激することができます。

現在、HyperAI公式サイトの「チュートリアル」セクションで「Step-Audio-TTS-3Bプロダクションレベルの方言音声生成モデル」が公開されています。このチュートリアルには、音声合成、音楽合成、音声複製の3つの機能が含まれています。ぜひご自身で体験してみてください〜

チュートリアルのアドレス:

https://go.hyper.ai/QrTmW

デモの実行

1. hyper.ai にログインし、チュートリアルページで Step-Audio-TTS-3B Production-Level Dialect Speech Generation Model を選択し、このチュートリアルをオンラインで実行をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA RTX A6000」と「PyTorch」イメージを選択します。OpenBayes プラットフォームは新しい課金方法を導入しました。ニーズに応じて、「従量課金制」または「日次/週次/月次パッケージ」を選択できます。「続行」をクリックします。新規ユーザーは、以下の招待リンクを使用して登録すると、4 時間の RTX 4090 + 5 時間の CPU フリータイムを獲得できます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_QZy7

4. リソースが割り当てられるのを待ちます。最初のクローン作成プロセスには約 2 分かかります。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモページに移動します。 APIアドレスアクセス機能を使用する前に、ユーザーは実名認証を完了する必要がありますのでご注意ください。

エフェクト表示

このチュートリアルには、一般的な音声合成、音楽合成、音声複製の 3 つの機能が含まれています。

1. 一般的な音声合成

この機能は、公式のデフォルトの音声キャラクターであるティンティンと新しく追加された音声であるネザをプリセットし、多言語生成、感情、方言などの設定をサポートします。

音声合成トーンの説明

* ティンティンという音は公式の4sオーディオプロンプトファイルによって生成されます

* 哪哪の音は、14秒の音声プロンプト「私は第三王子哪哪です。私は気ままで詩を書くのが大好きです。ポケットに手を入れて歩き、曲がった道もまっすぐにすることができます」ファイルから生成されています。

デモページで、「通常の音声合成」を選択し、テキストを入力し、話者 (デフォルトは Tingting) を選択し、感情 (幸せ、怒り、悲しみ、コケティッシュ) を選択し、言語/方言 (中国語、英語、日本語、北京語、四川語、広東語、広東語) を選択し、発話速度 (速い、遅い) を選択します。「音声の生成」をクリックするだけです。

2. 音楽合成

この機能は公式サイトのデフォルトの音声キャラクターであるティンティンと新しく追加された哪吒の音色をプリセットしており、RAPやハミングもサポートしています。

RAPサウンドの説明

* ティンティンという音は、公式の11sオーディオプロンプトファイルによって生成されます。

* 哪吒の音は、14 秒のオーディオプロンプト「雷が鳴り響き、とても怖い。全身に雷が落ちてくる。トランペットを吹いて運命を変える。笑って災難を乗り越える。チクタクチクタク」ファイルによって生成されます。

ハミングトーンの説明

* ティンティンという音は12秒のオーディオプロンプトファイルによって生成されます

* 哪吒の音は、14秒の音声プロンプト「私は恐れ知らずで生まれ、父が誰であろうと、主が支配者を倒せば、私に命令することは決してできない」によって生成されます。

デモページで「音楽合成」を選択し、テキストを入力し、スピーカー（デフォルトはTingting）を選択し、モード（RAPまたはハミング）を選択します。「RAP/ハミングを生成」をクリックするだけです。

3. 音声クローン

この機能は、ユーザーがカスタム音色のオーディオをアップロードし、パーソナライズされた音声を生成することをサポートします。

デモページで [音声の複製] を選択し、テキストを入力し、参照オーディオ (.wav 形式) をアップロードし、複製された音声に名前を付け、感情 (幸せ、怒り、悲しみ、コケティッシュ) を選択し、言語/方言 (中国語、英語、日本語、北京語、四川語、広東語、広東語) を選択し、発話速度 (速いまたは遅い) を選択します。「クローン音声の生成」をクリックするだけです。

オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

1年前

情報

人工知能

ディープラーニング

チュートリアルのアドレス:

https://go.hyper.ai/QrTmW

デモの実行

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_QZy7

エフェクト表示

このチュートリアルには、一般的な音声合成、音楽合成、音声複製の 3 つの機能が含まれています。

1. 一般的な音声合成

音声合成トーンの説明

* ティンティンという音は公式の4sオーディオプロンプトファイルによって生成されます

2. 音楽合成

RAPサウンドの説明

* ティンティンという音は、公式の11sオーディオプロンプトファイルによって生成されます。

ハミングトーンの説明

* ティンティンという音は12秒のオーディオプロンプトファイルによって生成されます

3. 音声クローン

この機能は、ユーザーがカスタム音色のオーディオをアップロードし、パーソナライズされた音声を生成することをサポートします。

オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

デモの実行

エフェクト表示

オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

デモの実行

エフェクト表示

関連ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

デモの実行

エフェクト表示

関連ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Command Palette

オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

デモの実行

エフェクト表示

Command Palette

オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

デモの実行

エフェクト表示

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

Command Palette

オンラインチュートリアル丨Shiji Niangniangは一瞬にして「四川と重慶の少女」に変身しますか？ Step-Audio-TTSは音声複製/音楽合成/音声合成の3つを1つに実現します

デモの実行

エフェクト表示

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜600以上の言語に対応、XiaomiがOmniVoiceをオープンソース化：わずか3～10秒の参照音声で音声クローンを実現

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

無料CPUチュートリアル｜8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

関連ニュース

関連ニュース

関連ニュース

関連ニュース