オンラインチュートリアル | VibeVoice-1.5B の独自のデュアルトークナイザーアーキテクチャにより、4 人による 90 分間の会話を生成できるようになり、TTS テクノロジーの限界が再定義されます。

特色图像

Microsoftの最新のオープンソースモデルVibeVoice-1.5Bは、TTS技術の分野で大きなセンセーションを巻き起こしました。15億のパラメータを持つこのモデルは、最大90分間の非常に自然な音声を一度に生成し、最大4人の話者との会話をシミュレーションできます。公式のブラインドテストMOS(平均オピニオンスコア)は4.5と高く、実際の人間の声の音質に非常に近い値です。

VibeVoice-1.5B の核となる革新性は、独自のデュアルトークナイザー アーキテクチャと拡散デコード テクノロジーにあります。Qwen2.5言語モデルをベースに、音響トークナイザー(σ-VAEアーキテクチャを用いて3,200倍の音声圧縮を実現)とセマンティックトークナイザー(テキストの感情表現と休止の保持に重点を置く)を用いて、わずか7.5Hzという超低フレームレートで音声シーケンスを処理します。デコード側では、1億2,300万パラメータの拡散デコーダーとDPM-Solverアルゴリズムを組み合わせることで、高忠実度の音声の詳細を再構築します。

VibeVoice-1.5Bは主に研究者や開発者コミュニティを対象としており、ポッドキャスト制作、会話型AI、音声コンテンツ生成のための新しいツールを提供しています。ただし、現時点では中国語と英語のみに対応しており、重複した音声や背景効果音の生成はできない点にご注意ください。Microsoftは研究用途であることを明確に強調し、誤用を防ぐため、音声による免責事項と目に見えない透かし技術を採用しています。

現在のところ、Microsoft VibeVoice-1.5B は TTS 技術の限界を再定義しますHyperAI公式サイトの「チュートリアル」セクションに公開されました。下のリンクをクリックすると、ワンクリックでデプロイできます。

チュートリアルのリンク:

https://go.hyper.ai/6Ii8l

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

デモの実行

1. hyper.ai ホームページで [チュートリアル] ページを選択し、[Microsoft VibeVoice-1.5B: TTS テクノロジの境界の再定義] を選択して、[このチュートリアルをオンラインで実行] をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」を選択します。OpenBayesプラットフォームでは、ニーズに合わせて「従量課金制」または「日次/週次/月次」の4つの課金オプションをご用意しています。「PyTorch」イメージを選択したら、「続行」をクリックします。新規ユーザーは、以下の招待リンクから登録すると、RTX 4090を4時間分、CPU時間を5時間分無料でご利用いただけます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースが割り当てられるのを待ちます。最初のクローン作成プロセスには約 2 分かかります。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモ ページに移動します。 APIアドレスアクセス機能を使用する前に、ユーザーは実名認証を完了する必要がありますのでご注意ください。

効果実証

モデルページに入ったら、「Number of Speakers」で話者の数を選択し、「Speaker 1-4」で話者を設定し、「Conversation Script」に会話のテキストを入力し、最後に「Generate Podcast」をクリックします。

著者は 4 人の会話を例に挙げて、次のような音声を生成しました。

*プロンプト:

話者1: 今週末、あの新しいカフェに行ってみるのはいかがですか?ドリップコーヒーが美味しいと聞きました。

話者2: もちろんです!でも土曜日の午後はヨガに行かないといけないので、日曜日の午前中は空いています。

発言者3: 私も日曜日の午前中が都合がいいです。来週はチームビルディングについて皆さんと話し合いたいと思っています。

話者4: じゃあ、問題ありません!日曜日の午前10時にカフェの入り口で会いましょうか?

話者1: よかったです。事前に窓側の席を予約しておきます。

これは今回の号のおすすめチュートリアルです。ぜひ皆さんも試してみてください⬇️

チュートリアルのリンク:https://go.hyper.ai/6Ii8l

2023年から2024年にかけてのAI4S分野の高品質な論文と詳細な解釈記事をワンクリックで入手⬇️