Back to Headlines

オープンソースで90分の会話音声を生成——VibeVoiceが進化させる次世代TTS技術

6日前

VibeVoiceは、ポッドキャストなど長時間で複数話者による会話音声をテキストから生成するオープンソースの音声合成モデルとして注目されている。従来の音声合成システムが抱える課題——スケーラビリティの限界、話者間の一貫性の欠如、自然な会話の流れの再現——を解決するための新アーキテクチャを採用している。 このモデルの核となる技術は、7.5Hzという極めて低いフレームレートで動作する「連続音声トークナイザー」(音響的・意味的トークン)の活用だ。これにより、音声の高精細度を維持しつつ、長時間の音声処理における計算効率を大幅に向上させている。さらに、テキストの文脈や会話の流れを理解するための大型言語モデル(LLM)と、高品質な音声細部を生成するための拡散モデル(diffusion head)を組み合わせた「次トークン拡散フレームワーク」を採用。これにより、自然な抑揚や感情表現を忠実に再現できる。 VibeVoiceは最大90分の長さの会話音声を、最大4人の異なる話者で生成可能。多くの既存モデルが1~2人の話者に限定される中で、この規模の対話音声生成は画期的である。また、背景音楽との融合や多言語対応も実現しており、ポッドキャスト制作やナレッジコンテンツの自動生成など、幅広い応用が期待される。 開発チームは、Hugging Faceでモデルとデモを公開しており、研究者や開発者による自由な利用・改変が可能。AI音声生成の境界を広げる重要な一歩として、技術界の注目を集めている。

Related Links