HyperAI超神経

ワンクリックで Parler-TTS を導入

チュートリアルの紹介

Parler-TTS は、特定の話者のスタイルで高品質で自然な音声を生成できる軽量のテキスト読み上げ (TTS) モデルです。高い自由度と革新性があり、プロンプトを通じて話者の性別を制御できます。 、音色、イントネーション、シーン(屋内、屋外、路上、コンサートホールなど)。これは、Stability AI、エディンバラ大学の Dan Lyth および Simon King による論文です。 合成コメントを備えた高忠実度のテキスト読み上げの自然言語ガイド」のコード再現。

他の TTS モデルとは異なり、Parler-TTS は完全にオープンソースです。すべてのデータセット、前処理、トレーニング コード、重みはライセンスに基づいて公開されており、コミュニティがこのチュートリアルの成果を基にして独自の強力な TTS モデルを開発できるようになります。 注: このモデルは現在中国語をサポートしていません。

ステップの実行

1. 克隆并启动容器,等待约 30s(加载模型),点击 API 地址即可进入 Web 界面(使用 RTX 4090 即可启动)
2. 输入要生成的文字和风格描述,点击提交即可生成

• 入力テキスト: 音声に変換する必要があるテキスト

• 説明: プロンプトと同様、オーディオの文字、シーン、イントネーション、音色、その他の情報の説明。例: 非常に騒々しい背景で、男性の声が少しゆっくりと話し、低音のトーンを伝え、表現力とアニメーションのタッチを示します。その音は非常に遠くにあり、陰謀の雰囲気を加えます。

• Parler-TTS 生成: 生成されたオーディオ ファイル (試聴およびダウンロード可能)

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。