HyperAI超神経

Dia-1.6B: 感情音声合成デモ

画像
建てる
ライセンス: MIT

1. チュートリアルの概要

Dia-1.6Bは、Nari Labsチームによって2025年4月21日にリリースされたテキスト読み上げモデルです。テキストスクリプトから直接非常にリアルな会話を生成することができ、音声ベースの感情やイントネーションの制御をサポートしています。さらに、Dia-1.6B は笑い声、咳、咳払いなどの非言語コミュニケーションの音も生成できるため、会話がより自然で生き生きしたものになります。このモデルは、複数役割のダイアログ生成をサポートするだけでなく、[S1]や[S2]などのラベルを通じて役割を区別し、ワンショットで複数役割のダイアログを生成し、自然なリズムと感情の遷移を維持することができます。このプロジェクトでは、独自のオーディオ サンプルのアップロードもサポートされています。モデルはサンプルに基づいて類似の音声を生成し、ゼロサンプルの声紋複製を実現します。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用し、現在は英語生成のみをサポートしています。

👉 このプロジェクトでは以下のモデルを提供します:

  • 直径 – 1.6B:  16億パラメータのテキスト読み上げモデルを備えています。

2. プロジェクト例

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. Web ページに入ると、モデルと会話を開始できます。

パラメータの説明:

  • 最大新規トークン: 生成されるオーディオの長さを制御します。
  • CFGスケール: 生成が入力条件に準拠する度合いを調整します。
  • 温度: 生成される結果のランダム性を制御します。
  • トップP: 候補者選択の多様性を制御します。
  • CFGフィルタートップK: CFG の Top K フィルタリングと組み合わせて、関連性と多様性のバランスをとります。
  • スピードファクター: 生成されたオーディオの再生速度または生成されたリズムを調整します。

利用手順

生成されたテキストを「入力テキスト」に入力し、[S1]タグと[S2]タグを使用してキャラクターのセリフを区別します。参照オーディオに 2 つの異なる音色がある場合は、それぞれ S1 (最初の音色) と S2 (2 番目の音色) というラベルを付けることができます。キャラクターの音色は、リファレンスオーディオの 2 つの音色に 1 対 1 で対応します。参照オーディオにサウンドがある場合は、S1 (最初のサウンド) としてマークできます。 

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。