MOSS: テキスト音声対話生成
1. チュートリアルの概要

MOSS-TTSDは、OpenMOSSチームが2025年6月20日にリリースしたオープンソースのバイリンガル音声対話合成モデルで、中国語と英語に対応しています。2人の話者間の会話スクリプトを、自然で表現力豊かな会話音声に変換できます。MOSS-TTSDは音声複製と長い単一セグメント音声生成をサポートしており、AIポッドキャスト制作に最適です。関連論文は以下の通りです。MOSS-TTSD: テキストから音声への対話生成”。
このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。
2. プロジェクト例

3. 操作手順
1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 使用手順
「Bad Gateway」と表示される場合は、モデルが初期化中です。モデルのサイズが大きいため、2~3分ほどお待ちいただき、ページを更新してください。Safariブラウザをご利用の場合、音声が直接再生されない場合がありますので、再生前にダウンロードしてください。
※このチュートリアルでは、「オーディオ入力モード」でシングルプレイヤーオーディオ生成(シングル)と2プレイヤーダイアログオーディオ生成(ロール)を選択できます。


4. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報
このプロジェクトの引用情報は次のとおりです。
@article{moss2025ttsd,
title={Text to Spoken Dialogue Generation},
author={OpenMOSS Team},
year={2025}
}