Command Palette

Search for a command to run...

2ヶ月前

バイブボイス技術報告書

バイブボイス技術報告書

要約

本報告では、次トークン拡散(next-token diffusion)を用いて複数話者による長文音声を合成する新しいモデル「VibeVoice」を紹介する。次トークン拡散は、拡散プロセスを自己回帰的に用いて潜在ベクトルを生成することで、連続データを統一的にモデル化する手法である。本手法を実現するため、従来の代表的なEncodecモデルと比較して、データ圧縮比を80倍向上させつつ、同等の性能を維持する新たな連続音声トークナイザーを提案する。このトークナイザーは、音声の高忠実度を効果的に保持しつつ、長文シーケンスの処理における計算効率を大幅に向上させる。その結果、VibeVoiceは最大4人の話者を対象に、最大90分間の長文音声を合成可能(64Kのコンテキスト窓長)であり、自然な会話の「雰囲気(vibe)」を捉え、オープンソースおよびプロプライエタリな対話モデルを上回る性能を実現している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
バイブボイス技術報告書 | 論文 | HyperAI超神経