HyperAIHyperAI

Command Palette

Search for a command to run...

Console

オンラインチュートリアル | MicrosoftがVibeVoiceをオープンソース化、4つの役割間で90分間の自然な対話を実現

1日前
情報
h.li
Featured Image

近年、テキスト音声合成(TTS)技術は飛躍的な進歩を遂げ、一人の話者による高忠実度で自然な音声の短い発話を合成できるようになりました。しかし、長編・複数話者による対話音声のスケーラブルな合成には依然として大きな課題が残っており、ポッドキャストや複数話者によるオーディオブックといった用途への応用は限定的です。

従来の手法では、独立して合成された発話を連結して音声を生成する場合でも、自然な対話のターンテイキングやコンテンツを考慮した生成を実現するには至っていません。産業用途における需要の高まりに伴い、複数の話者による長話音声生成に関する研究が様々な分野で進められています。しかし、その成果のほとんどはまだオープンソース化されておらず、また、世代の長さや安定性に関して未解決の問題が残っています。

この文脈では、Microsoft は、スケーラブルな長時間フォーマットの複数話者による音声合成を可能にすることを目指して、VibeVoice をオープンソース化しました。 VibeVoice は、長い複数話者の音声を合成するために、次のトークン拡散アプローチを採用しています。これは、拡散自己回帰を使用して潜在ベクトルを生成し、連続データをモデル化する統一された方法です。

この目的のため、研究チームは、現在普及しているエンコーダモデルと比較して、同等の性能を維持しながら80倍のデータ圧縮率を実現する、画期的な連続音声セグメンテーション技術を開発しました。これにより、最大3200倍(7.5Hzフレームレートに相当)の圧縮率を実現しました。これにより、音声の忠実度を確保しながら、長いシーケンス処理の計算効率を大幅に向上させることができます。

VibeVoice アーキテクチャ図

シンプルなアーキテクチャにもかかわらず、VibeVoice は優れた機能を発揮します。64K のコンテキスト ウィンドウ内で最大 4 人の話者による最大 90 分の音声を合成し、より豊かな音色、より自然なイントネーションを生み出し、実際の会話の雰囲気を捉えます。言語間アプリケーションにおいて強力な移植性を実証し、全体的なパフォーマンスは既存のオープンソースおよび独自の対話モデルを上回ります。

年末が近づく中、この記事ではVibeVoiceを使って1分20秒の新年の挨拶音声クリップを生成しました。生成された音声の品質は大幅に向上し、単調な「機械的な音」から脱却し、感情的な緊張感を伴う豊かで重層的な音色を実現し、温かく生き生きとした響きに仕上がっています。

「VibeVoice-Realtime TTS:リアルタイム音声合成サービス」が、HyperAIウェブサイト(hyper.ai)のチュートリアルセクションに公開されました。ワンクリックで導入・体験できます!

チュートリアルのリンク:

https://go.hyper.ai/jdZrA

デモの実行

1. hyper.aiのホームページにアクセス後、「VibeVoice-Realtime TTS:リアルタイム音声合成サービス」を選択するか、「チュートリアル」ページから選択してください。「このチュートリアルをオンラインで実行」をクリックしてください。

2. ページがリダイレクトされたら、右上隅の「複製」をクリックして、チュートリアルを独自のコンテナーに複製します。

注:ページの右上で言語を切り替えることができます。現在、中国語と英語が利用可能です。このチュートリアルでは英語で手順を説明します。

3. 「NVIDIA GeForce RTX 5090」と「PyTorch」のイメージを選択し、必要に応じて「Pay As You Go」または「Daily Plan/Weekly Plan/Monthly Plan」を選択し、「ジョブ実行を続行」をクリックします。

HyperAI は新規ユーザー向けに登録ボーナスを提供しています。わずか $1 で、RTX 5090 のコンピューティング パワーを 5 時間利用でき (元の価格は $2.45)、リソースは無期限に有効です。

4. リソースの割り当てをお待ちください。最初のクローン作成には約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページへ移動してください。

効果実証

デモ実行ページにアクセスしたら、テスト動画をアップロードし、「変換するテキスト」欄にテキストを入力し、「話者の声」オプションで7種類の声質から選択します。「CFGスケール」を調整することで、話し方の強弱を調整できます。値が高いほど、感情が強くなります。最後に「音声を生成」をクリックし、音声が生成されるまで少しお待ちください。

年末が近づいてきましたので、VibeVoice の新年のご挨拶を再生してください。

以上が今回HyperAIがおすすめするチュートリアルです。ぜひ皆さんも体験してみてください!

チュートリアルのリンク:

https://go.hyper.ai/jdZrA