HyperAI超神経

MOSS: テキスト音声対話生成

1. チュートリアルの概要

建てる

MOSS-TTSDは、OpenMOSSチームが2025年6月20日にリリースしたオープンソースのバイリンガル音声対話合成モデルで、中国語と英語に対応しています。2人の話者間の会話スクリプトを、自然で表現力豊かな会話音声に変換できます。MOSS-TTSDは音声複製と長い単一セグメント音声生成をサポートしており、AIポッドキャスト制作に最適です。関連論文は以下の通りです。MOSS-TTSD: テキストから音声への対話生成”。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順

「Bad Gateway」と表示される場合は、モデルが初期化中です。モデルのサイズが大きいため、2~3分ほどお待ちいただき、ページを更新してください。Safariブラウザをご利用の場合、音声が直接再生されない場合がありますので、再生前にダウンロードしてください。

※このチュートリアルでは、「オーディオ入力モード」でシングルプレイヤーオーディオ生成(シングル)と2プレイヤーダイアログオーディオ生成(ロール)を選択できます。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@article{moss2025ttsd,
  title={Text to Spoken Dialogue Generation}, 
  author={OpenMOSS Team},
  year={2025}
}