Command Palette
Search for a command to run...
無料CPUチュートリアル|8,800個の星を獲得したSupertonic-3 TTSモデルは、約9,900万個のパラメータしか持たず、31の言語をサポートしています。

生成AIがマルチモーダルなアプローチへと進化を続けるにつれ、TTS(テキスト音声合成)も徐々に「クラウドベースの機能」から「ローカル機能」へと移行しつつあります。従来、高品質なTTSシステムは、大規模なモデル、クラウドベースの推論、複雑な導入プロセスに依存していました。これにより自然な音声が実現できた一方で、遅延、コスト、プライバシーに関する問題も生じていました。特にモバイルデバイス、ブラウザ、エッジハードウェアといったシナリオでは、リソース消費を抑えながらリアルタイムで高品質な多言語音声生成を実現することが、業界の新たな焦点となっています。
今年の5月、Supertoneチームは、軽量な多言語テキスト音声合成モデルであるSupertonic-3をオープンソース化し、GitHubで既に8,800個のスターを獲得している。このモデルはONNX Runtimeをベースに構築されており、完全なローカル動作をサポートしています。クラウドAPIを呼び出したりGPUに依存したりすることなく、CPU環境でリアルタイムの音声合成を実行できます。
数十億ものパラメータを持つ現在の多くのオープンソースTTSシステムと比較して、Supertonic-3の注目すべき特徴は、「小さくても完全」であることです。このモデル全体のパラメータ数は約9900万個に過ぎませんが、31の言語、10種類のプリセット音色をサポートし、長文テキストの分割、無音間隔の制御、表情タグなどの機能を備えています。例えば、開発者は… 、 、 [タグのリスト]などのタグを使用すると、追加の音声参照や複雑なプロンプトエンジニアリングを必要とせずに、生成された音声に自然な感情や間を追加できます。
公式発表によると、その推論速度はウェブページ全体を1秒以内に音声に変換するのに十分であり、追加の後処理なしで再生できる高品質の44.1kHz、16ビットWAVファイルを直接出力できるとのことです。ローカルAIアシスタント、オフラインリーダー、音声放送システム、多言語コンテンツツールなどを構築しようとしている開発者にとって、このような「軽量かつマルチプラットフォーム」なソリューションはますます魅力的になっています。
最近、HyperAIの公式サイト(hyper.ai)のチュートリアルセクションに、「Supertonic-3:軽量ローカル多言語音声合成システム」が掲載され、環境設定が完了しました。Free CPU を利用して、高品質な TTS モデルを無料で体験してください。
オンラインで実行:

その他のオンラインチュートリアル:
より詳しい情報については、弊社の公式ウェブサイトをご覧ください。
デモの実行
1. hyper.ai のホームページにアクセスしたら、「チュートリアル」ページを選択するか、「その他のチュートリアルを表示」をクリックし、「Supertonic-3: 軽量ローカル多言語音声合成システム」を選択して、「このチュートリアルを実行」をクリックします。


2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。
注:ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「Free CPU」と「PyTorch」イメージを選択し、「ジョブの実行を続行」をクリックします。
HyperAI は新規ユーザー向けに登録ボーナスを提供しています。わずか $1 で、RTX 5090 のコンピューティング パワー (元の価格は $7) を 20 時間利用でき、リソースは無期限に有効です。


4. リソースが割り当てられるのを待ちます。ステータスが「実行中」に変わったら、「ワークスペースを開く」をクリックしてJupyterワークスペースに入ります。

エフェクト表示
1. ページがリダイレクトされたら、左側のREADMEファイルをクリックし、上部の「実行」をクリックします。


2. 処理が完了したら、右側のAPIアドレスをクリックしてデモページに移動します。









