Command Palette
Search for a command to run...

要約
本報告では、次トークン拡散(next-token diffusion)を用いて複数話者による長文音声を合成する新しいモデル「VibeVoice」を紹介する。次トークン拡散は、拡散プロセスを自己回帰的に用いて潜在ベクトルを生成することで、連続データを統一的にモデル化する手法である。本手法を実現するため、従来の代表的なEncodecモデルと比較して、データ圧縮比を80倍向上させつつ、同等の性能を維持する新たな連続音声トークナイザーを提案する。このトークナイザーは、音声の高忠実度を効果的に保持しつつ、長文シーケンスの処理における計算効率を大幅に向上させる。その結果、VibeVoiceは最大4人の話者を対象に、最大90分間の長文音声を合成可能(64Kのコンテキスト窓長)であり、自然な会話の「雰囲気(vibe)」を捉え、オープンソースおよびプロプライエタリな対話モデルを上回る性能を実現している。