オンライン チュートリアル | CSM が来ます。どいてください!より鮮明な音声生成、遅延、鈍い、機械的な音声の排除

AI音声アシスタントとチャットをしていると、いつも何か変な感じがします。彼らは質問に簡単に答えましたが、少し「人間らしさ」が欠けていました。声のトーンは鈍く、間は突然で、時々不可解なところで話が止まってしまいます。この非人間的で非人間的な感覚は、実は「不気味の谷効果」が働いているのです。 AI の音声が人間の音声に非常に似ているが完全に一貫していない場合、ユーザーは不快感を覚えます。
最近、Sesame チームが立ち上げた音声生成モデル CSM (Conversational Speech Model) が、多くの音声モデルの中でも一際目立っています。このモデルは、Llama バックボーン アーキテクチャと軽量オーディオ デコーダーをエンドツーエンドの Transformer フレームワークと組み合わせて使用し、テキストとオーディオ入力に基づいて RVQ オーディオ コードを生成し、流暢で自然で感情的な音声を出力します。ユーザーの感情的なニーズを満たすことができる音声アシスタントを作成します。
従来の AI 音声生成モデルと比較すると、CSM は単に音声を生成する以上の機能を備えています。
*より強い感情的理解:文脈を深く分析し、トーンやイントネーションを柔軟に調整できます。
*より自然な会話のリズム:会話をスムーズにするために、一時停止、強調、中断などの詳細を微調整します。
*ほぼゼロ遅延の体験:効率的な推論アーキテクチャにより、音声生成がリアルタイムに近づき、インタラクションの効率が向上します。
「CSM会話型音声生成モデルデモ」チュートリアルがHyperAI公式サイトで公開されました。ぜひ見に来てください!
チュートリアルのアドレス:
デモの実行
1. hyper.ai にログインし、チュートリアル ページで CSM 会話型音声生成モデル デモを選択し、このチュートリアルをオンラインで実行をクリックします。


2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA RTX 4090」と「PyTorch」のイメージを選択します。 OpenBayes プラットフォームは新しい課金方法を導入しました。ニーズに応じて、「従量課金制」または「日次/週次/月次パッケージ」を選択できます。 「続行」をクリックします。新規ユーザーは、以下の招待リンクを使用して登録すると、4 時間の RTX 4090 + 5 時間の CPU フリータイムを獲得できます。
HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):
https://go.openbayes.com/9S6Dr


4. リソースが割り当てられるまで待ちます。最初のクローン作成プロセスには約 2 分かかります。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモ ページに移動します。モデルが大きいため、WebUI インターフェイスが表示されるまでに約 3 分かかります。そうでない場合は、「Bad Gateway」と表示されます。 APIアドレスアクセス機能を使用する前に、ユーザーは実名認証を完了する必要がありますのでご注意ください。


エフェクト表示
個人の音声を選択またはアップロードし、会話の内容を入力して、「会話を生成」をクリックすると会話が生成されます。
*デフォルトでは、スピーカー A が最初のラウンドのスピーチを開始し、その後、スピーカー A とスピーカー B が交代でコミュニケーションをとります (現在は英語のコンテンツ生成のみをサポートしています)。

