日付

2ヶ月前

サイズ

200.25 MB

タグ

Text-to-Audio

ライセンス

MIT

GitHub

supertone-inc/supertonic

1. チュートリアルの概要

このチュートリアルは、公式の Supertone オープンソースプロジェクトに基づいています。スーパートニックオープンソースコミュニティへの貢献をいただいた Supertone チームに感謝します! ❤️

Supertonicは、Supertoneチームが2025年1月にリリースしたネイティブ音声合成（TTS）エンジンです。コア推論層は、低レイテンシかつ高並列処理のシナリオ向けに特別に設計されたONNXランタイムを使用して実装されています。従来の大規模TTSモデルとは異なり、Supertonicは高品質の音声合成を維持しながらハードウェア障壁を大幅に低減し、デスクトップ、サーバー、さらにはエッジデバイス上で完全にオフラインのリアルタイム推論をサポートします。特に、プライバシーとセキュリティが重視されるシナリオや、リアルタイムインタラクティブアプリケーション（デジタルヒューマンやゲームボイスチャットなど）への統合が必要なシナリオに適しています。

注意: このプロジェクトは現在、英語テキストの音声合成のみをサポートしています。

このチュートリアルでは、OpenBayes プラットフォーム上の単一の RTX 5090 GPU の計算能力を示し、onnxruntime-gpu ハードウェアアクセラレーションと Grado を使用して、ミリ秒レベルの英語音声合成を実現するビジュアル Web インターフェイスを構築します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

この公開チュートリアルを OpenBayes コンソールに複製します。
コンテナを起動します。システムによって RTX 5090 リソースが自動的に割り当てられます。
開始待ち: コンテナが起動した後、バックグラウンドスクリプトが dependencies.sh CUDA環境が自動的に構成され、モデルがロードされます。コア依存関係は事前にインストールされているため、このプロセスは非常に高速で、通常は1～2分しかかかりません。
アプリケーションへのアクセス: コンテナのステータスが「実行中」に変わったら、コンテナの詳細ページの右上隅にある「API アドレス」ボタンをクリックして、Grado Web インターフェースを開きます。

2. Webページにテキストを入力して音声を合成します。

「Bad Gateway」と表示される場合は、サービスが起動中であることを意味します。モデルの読み込みには時間がかかるため、1～2分ほどお待ちいただき、ページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

ウェブページに入ると、完全に英語のインタラクティブなインターフェースが表示されます。

基本的な使用手順:

入力テキスト: 左側のテキストボックスに合成したい英語のテキストを入力します。例: Supertonic は超高速のテキスト読み上げモデルです。
音声スタイル: ドロップダウンメニューからプリセットスタイルを選択します (例: ...)。 Male 1 男性の声または Female 1 （女声）
速度: スライダーをドラッグして読み上げ速度を調整します。デフォルト値は1.0です。
音声の生成: [生成] ボタンをクリックします。
オーディオ出力：しばらくお待ちください。右側のプレーヤーが生成されたオーディオを自動的に再生します。右上のダウンロードボタンをクリックして保存することもできます。 .wav 書類。

注: 初めて「生成」をクリックすると、ONNXランタイムがCUDAの初期化とグラフの最適化を実行するため、数秒かかる場合があります。その後の生成速度は非常に速くなります。

引用情報

@article{kim2025supertonic,
  title={SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System},
  author={Kim, Hyeongju and Yang, Jinhyeok and Yu, Yechan and Ji, Seunghun and Morton, Jacob and Bous, Malek and Lee, Sungjae},
  journal={arXiv preprint arXiv:2503.23108},
  year={2025},
  url={[https://arxiv.org/abs/2503.23108](https://arxiv.org/abs/2503.23108)}
}

@article{kim2025larope,
  title={Length-Aware Rotary Position Embedding for Text-Speech Alignment},
  author={Kim, Hyeongju and Lee, Juheon and Yang, Jinhyeok and Morton, Jacob},
  journal={arXiv preprint arXiv:2509.11084},
  year={2025},
  url={https://arxiv.org/abs/2509.11084}
}
@article{kim2025spfm,
  title={Training Flow Matching Models with Reliable Labels via Self-Purification},
  author={Kim, Hyeongju and Yu, Yechan and Yi, June Young and Lee, Juheon},
  journal={arXiv preprint arXiv:2509.19091},
  year={2025},
  url={https://arxiv.org/abs/2509.19091}
}

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このNotebookを実行 Discordで議論

日付

2ヶ月前

サイズ

200.25 MB

タグ

Text-to-Audio

ライセンス

MIT

GitHub

supertone-inc/supertonic

1. チュートリアルの概要

注意: このプロジェクトは現在、英語テキストの音声合成のみをサポートしています。

このチュートリアルでは、OpenBayes プラットフォーム上の単一の RTX 5090 GPU の計算能力を示し、onnxruntime-gpu ハードウェアアクセラレーションと Grado を使用して、ミリ秒レベルの英語音声合成を実現するビジュアル Web インターフェイスを構築します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

この公開チュートリアルを OpenBayes コンソールに複製します。
コンテナを起動します。システムによって RTX 5090 リソースが自動的に割り当てられます。
開始待ち: コンテナが起動した後、バックグラウンドスクリプトが dependencies.sh CUDA環境が自動的に構成され、モデルがロードされます。コア依存関係は事前にインストールされているため、このプロセスは非常に高速で、通常は1～2分しかかかりません。
アプリケーションへのアクセス: コンテナのステータスが「実行中」に変わったら、コンテナの詳細ページの右上隅にある「API アドレス」ボタンをクリックして、Grado Web インターフェースを開きます。

2. Webページにテキストを入力して音声を合成します。

「Bad Gateway」と表示される場合は、サービスが起動中であることを意味します。モデルの読み込みには時間がかかるため、1～2分ほどお待ちいただき、ページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

ウェブページに入ると、完全に英語のインタラクティブなインターフェースが表示されます。

基本的な使用手順:

入力テキスト: 左側のテキストボックスに合成したい英語のテキストを入力します。例: Supertonic は超高速のテキスト読み上げモデルです。
音声スタイル: ドロップダウンメニューからプリセットスタイルを選択します (例: ...)。 Male 1 男性の声または Female 1 （女声）
速度: スライダーをドラッグして読み上げ速度を調整します。デフォルト値は1.0です。
音声の生成: [生成] ボタンをクリックします。
オーディオ出力：しばらくお待ちください。右側のプレーヤーが生成されたオーディオを自動的に再生します。右上のダウンロードボタンをクリックして保存することもできます。 .wav 書類。

注: 初めて「生成」をクリックすると、ONNXランタイムがCUDAの初期化とグラフの最適化を実行するため、数秒かかる場合があります。その後の生成速度は非常に速くなります。

引用情報

@article{kim2025supertonic,
  title={SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System},
  author={Kim, Hyeongju and Yang, Jinhyeok and Yu, Yechan and Ji, Seunghun and Morton, Jacob and Bous, Malek and Lee, Sungjae},
  journal={arXiv preprint arXiv:2503.23108},
  year={2025},
  url={[https://arxiv.org/abs/2503.23108](https://arxiv.org/abs/2503.23108)}
}

@article{kim2025larope,
  title={Length-Aware Rotary Position Embedding for Text-Speech Alignment},
  author={Kim, Hyeongju and Lee, Juheon and Yang, Jinhyeok and Morton, Jacob},
  journal={arXiv preprint arXiv:2509.11084},
  year={2025},
  url={https://arxiv.org/abs/2509.11084}
}
@article{kim2025spfm,
  title={Training Flow Matching Models with Reliable Labels via Self-Purification},
  author={Kim, Hyeongju and Yu, Yechan and Yi, June Young and Lee, Juheon},
  journal={arXiv preprint arXiv:2509.19091},
  year={2025},
  url={https://arxiv.org/abs/2509.19091}
}

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

2ヶ月前

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

2ヶ月前

kyutai-tts-1.6 b-en_fr オーディオ生成

1ヶ月前

Pocket-TTS: 高品質で軽量なストリーミングTTSシステム

14日前

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

2ヶ月前

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

1ヶ月前

ROCKET-2: 3Dゲームゼロショット転送

2ヶ月前

Dia2-TTS: リアルタイム音声合成サービス

2ヶ月前

Ovis-Image: 高品質画像生成モデル

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

Supertonic: ONNXに基づく高速TTS音声合成モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. Webページにテキストを入力して音声を合成します。

引用情報

AIでAIを構築

HyperAI Newsletters

Command Palette

Supertonic: ONNXに基づく高速TTS音声合成モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. Webページにテキストを入力して音声を合成します。

引用情報

関連 ノートブック

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

kyutai-tts-1.6 b-en_fr オーディオ生成

Pocket-TTS: 高品質で軽量なストリーミングTTSシステム

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

ROCKET-2: 3Dゲームゼロショット転送

Dia2-TTS: リアルタイム音声合成サービス

Ovis-Image: 高品質画像生成モデル

AIでAIを構築

HyperAI Newsletters

Command Palette

Supertonic: ONNXに基づく高速TTS音声合成モデル

1. チュートリアルの概要

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、APIアドレスをクリックしてWebインターフェースに入ります。

2. Webページにテキストを入力して音声を合成します。

引用情報

関連 ノートブック

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

kyutai-tts-1.6 b-en_fr オーディオ生成

Pocket-TTS: 高品質で軽量なストリーミングTTSシステム

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

ROCKET-2: 3Dゲームゼロショット転送

Dia2-TTS: リアルタイム音声合成サービス

Ovis-Image: 高品質画像生成モデル

AIでAIを構築

HyperAI Newsletters

関連 ノートブック

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

kyutai-tts-1.6 b-en_fr オーディオ生成

Pocket-TTS: 高品質で軽量なストリーミングTTSシステム

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

ROCKET-2: 3Dゲームゼロショット転送

Dia2-TTS: リアルタイム音声合成サービス

Ovis-Image: 高品質画像生成モデル

関連 ノートブック

VibeVoice-Realtime TTS: リアルタイム音声合成サービス

F5-E2 TTS あらゆるサウンドをわずか 3 秒でクローン作成

kyutai-tts-1.6 b-en_fr オーディオ生成

Pocket-TTS: 高品質で軽量なストリーミングTTSシステム

Open-AutoGLM: モバイルデバイス向けスマートアシスタント

Kiss3DGen: 画像拡散モデルに基づく3Dアセット生成フレームワーク

ROCKET-2: 3Dゲームゼロショット転送

Dia2-TTS: リアルタイム音声合成サービス

Ovis-Image: 高品質画像生成モデル

関連ノートブック

関連ノートブック

関連ノートブック

関連ノートブック