GLM-4-Voice エンドツーエンドの中国語と英語の音声対話モデル
1. チュートリアルの概要
GLM-4-Voice は、2024 年に Zhipu AI によって開始されたエンドツーエンドの音声モデルです。 GLM-4-Voice は、中国語と英語の音声を直接理解して生成し、リアルタイムの音声会話を行うことができ、ユーザーの指示に従って音声の感情、イントネーション、スピード、方言などの属性を変更することができます。
このチュートリアル デモには、モデルの 2 つの機能「音声対話」と「テキスト対話」の実装が含まれています。

GLM-4-Voice は 3 つの部分で構成されます。
- GLM-4-Voice-Tokenizer: Whisper のエンコーダー部分にベクトル量子化を追加し、ASR データの教師ありトレーニングを行うことで、連続音声入力が離散トークンに変換されます。平均して、オーディオは 1 秒あたり 12.5 個の個別トークンで表現するだけで済みます。
- GLM-4-Voice-Decoder: ストリーミング推論をサポートし、CosyVoice のフロー マッチング モデル構造に基づいてトレーニングされ、離散音声トークンを連続音声出力に変換する音声デコーダー。生成を開始するには少なくとも 10 個の音声トークンが必要であり、エンドツーエンドの会話の遅延が軽減されます。
- GLM-4-Voice-9B: GLM-4-9B に基づいて、離散化された音声トークンを理解して生成するために、音声モダリティの事前トレーニングと調整が実行されます。
事前トレーニングに関しては、モデルの IQ と音声モードでの合成表現力という 2 つの問題を克服するために、研究チームは Speech2Speech タスクを「ユーザーの音声に基づいてテキスト応答を作成する」と「応答を合成する」に分離しました。テキストの返信とユーザーの音声に基づいて「」という 2 つのタスクを作成し、2 つの事前トレーニング目標を設計しました。それぞれ、テキストの事前トレーニング データと教師なし音声データに基づいて音声とテキストがインターリーブされたデータを合成して、これら 2 つのタスク形式に適応します。 GLM-4-9B の基本モデルに基づいた GLM-4-Voice-9B は、数百万時間の音声と、音声とテキストがインターリーブされたデータを含む数千億のトークンで事前トレーニングされており、強力な音声理解とモデリングを備えています。 。 能力。
調整の面では、高品質の音声対話をサポートするために、研究チームはストリーミング思考アーキテクチャを設計しました。ユーザーの音声に応じて、GLM-4-Voice はテキストと音声の 2 つのモードでコンテンツを交互に出力できます。テキストを参照として使用して応答コンテンツの高品質を確保し、ユーザーの音声コマンド要件に応じて対応する音声変更を行いますが、言語モデルの IQ を維持しながらエンドツーエンドでモデル化する機能も備えています。音声を合成するために必要なトークンは少なくとも 20 個だけです。
2. 操作手順
コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

1.音声会話
入力モードの選択 オーディオ 機能では、クリックして音声ファイルを録音またはアップロードします。 関連するサンプリング パラメータは次のとおりです。
- 温度: 範囲 0 ~ 1、温度が高いほど、生成されるランダム性が大きくなります。
- 上位 p: 生成プロセス中に次の単語を選択するときに、最も高い確率を持つ上位 p 個のオプションのみが考慮されることを指定するために使用されます。これにより、テキスト生成時に多様性が維持され、常に最も高い確率で予測が選択されることが回避され、生成されるテキストがより豊かで多様性のあるものになります。
- 新しいトークンの最大数: 生成されるトークンの最大数。
セットアップが完了すると、モデルは音声とテキストをリアルタイムで出力しますが、ネットワークの遅延により断続的に出力される場合があり、チャット ボックスの音声が聞こえることがあります。 全体的なページレイアウトは次のとおりです。


语音对话流程

2. テキストでの会話
输入模式选择 **text** 功能,输入对话文本。
点击提交后,模型同时输出文本和语音。
语音对话(输入为文本)

交流とディスカッション
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。
