HyperAI

このNotebookを実行 Discordで議論

日付

8ヶ月前

サイズ

343.32 MB

タグ

Text-to-Audio

ライセンス

Apache 2.0

GitHub

edwko/OuteTTS

論文URL

outeai.com

1. チュートリアルの概要

テキスト音声合成: テキストを入力して、カスタマイズ可能な音声速度とイントネーションをサポートする、自然で流暢な音声出力を生成します。
音声の複製: ユーザーは、数秒ほどの参照音声と対応するテキストを提供してパーソナライズされた音声を作成できます。これは、カスタマイズされた音声アシスタント、オーディオブック、その他のシナリオに適しています。

このチュートリアルで使用するモデルは、Oute AIが2025年3月にリリースしたLlama-OuteTTS-1.0-1Bモデルです。パラメータが3億5000万から10億に増加し、音声表現力と安定性が大幅に向上しました。また、20言語へのローカライズされた合成をサポートし、クロスランゲージクローニング機能もさらに最適化されています。

このチュートリアルのコンピューティングリソースは、RTX 4090カード1枚を使用しています。このチュートリアルでは、主にデフォルトスピーカーと音声クローニングの2つの使用例を紹介します。このチュートリアルは英語のみに対応しています。

2. エフェクト表示

3. 操作手順

1. コンテナを起動します

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

Safari ブラウザを使用する場合、オーディオは直接再生されない場合があり、再生する前にダウンロードする必要があります。

具体的なパラメータ:

テキスト: 生成するテキストを入力します。
温度: 出力のランダム性を制御するスケーリング係数。
繰り返しペナルティ: 繰り返し生成を抑制するためのペナルティ係数。
Top-k: 各ステップで生成される候補単語の数を制限します。
Top-p: 動的な候補単語の選択 (カーネルサンプリング)。
最小確率 (min-p): 候補単語の最小確率しきい値を設定します。

1. デフォルトのスピーカー

2. 音声クローン

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています