Microsoft VibeVoice-1.5B は TTS 技術の限界を再定義します
1. チュートリアルの概要

VibeVoice-1.5Bは、Microsoftが2025年8月にリリースした新しい音声合成(TTS)モデルです。ポッドキャストなど、表現力豊かな長編の複数話者による会話音声を生成します。このモデルは、革新的な連続音声トークン化技術と次世代トークン拡散フレームワーク、そして大規模言語モデル(LLM)を組み合わせることで、高い忠実度を維持しながら長い音声シーケンスを効率的に処理します。VibeVoiceは最大90分の音声を合成でき、最大4人の話者に対応しています。このモデルは従来のTTSシステムの限界を打ち破り、自然な会話と感情表現の新たな可能性を提供します。
このチュートリアルで使用されるコンピューティング リソースは、単一の RTX 4090 カードです。
2. エフェクト表示

3. 操作手順
1. コンテナを起動します

2. 使用手順
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

具体的なパラメータ:
- 生成パラメータ
- CFGスケール: 生成されたオーディオと入力されたダイアログテキストの一貫性を調整します
結果

4. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。
