HyperAI超神経

CSM 会話音声生成モデルデモ

1. チュートリアルの概要

CSM (会話型音声モデル) は、2025 年に Sesame チームによって開発された会話型音声モデルです。自然で一貫性のある音声生成テクノロジーを通じて、音声アシスタントの感情的な対話機能を強化することを目的としています。このモデルは、マルチモーダル学習フレームワークに基づいており、テキストと音声データを組み合わせ、エンドツーエンドのトランスフォーマーアーキテクチャを使用して、自然で感情的な音声を直接生成します。テキストとオーディオ入力に基づいて RVQ オーディオコードを生成できます。モデル アーキテクチャでは、Llama バックボーンと、Mimi オーディオ コードを生成する小さなオーディオ デコーダーを使用します。

このチュートリアルでは、CSM-1B モデルを使用して 2 人での会話 (英語生成のみをサポート) を実装し、コンピューティング パワー リソースには RTX 4090 を使用します。

2. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. 話すオブジェクトを設定する

3. ダイアログと音声合成を設定する(英語生成のみサポート)

交流とディスカッション

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。