日期

7 个月前

组织

标签

RTX 5090

音频生成

论文 URL

2508.19205

许可证

MIT

GitHub

microsoft/VibeVoice49.7k

一、教程简介

VibeVoice-Realtime TTS 是一个高质量的实时文本转语音（Text-to-Speech, TTS）系统，由 Microsoft Research 团队于 2025 年 12 月发布的 VibeVoice-Realtime-0.5B 流式语音合成模型构建。该系统采用一种新颖的次令牌扩散（next-token diffusion）方法，用于在长篇多说话者语音合成中建模连续数据，并引入高效的连续语音分词器，使模型能够在 64K 上下文窗口内生成长达 90 分钟的语音，最多支持 4 名说话者，同时在保持音频忠实度的前提下大幅提升计算效率，捕捉真实对话氛围。相关论文成果为 VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech 。该系统支持多说话人语音生成、低延迟实时推理，以及 Gradio Web 端可视化交互。

核心特性：

多说话人实时语音合成
流式推理，低延迟输出
高保真 24000Hz 语音采样率
支持 CFG Scale 可控生成
GPU 加速推理
完整本地离线部署，不依赖外网

本教程使用 Gradio 部署 VibeVoice‑Realtime‑0.5B 核心模型，算力资源采用「RTX_5090」，可稳定支撑实时语音合成服务运行。本模型仅支持英文文本输入。

二、效果展示

VibeVoice-Realtime 在核心能力上表现优异：

实时 TTS：输入文本后可快速生成语音输出
多说话人支持：同一文本可切换不同音色风格
高自然度语音：音质清晰，语调自然
长文本稳定合成：无明显断句或失真问题
实时交互能力强，适用于对话系统、语音助手等场景

三、运行步骤

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用

若显示「Bad Gateway」, 这表示模型正在初始化，由于模型较大，请等待 1-2 分钟后刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

参数说明

语音生成参数
- CFG Scale：控制语音风格强度，数值越大情感越强。
说话人参数
- Speaker Voice：选择不同的说话人音色。

引用信息

本项目引用信息如下：

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,
  title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2508.19205},
  year={2025}
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

音频生成式 AI

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

7 个月前

组织

标签

RTX 5090

音频生成

论文 URL

2508.19205

许可证

MIT

GitHub

microsoft/VibeVoice49.7k

一、教程简介

核心特性：

多说话人实时语音合成
流式推理，低延迟输出
高保真 24000Hz 语音采样率
支持 CFG Scale 可控生成
GPU 加速推理
完整本地离线部署，不依赖外网

本教程使用 Gradio 部署 VibeVoice‑Realtime‑0.5B 核心模型，算力资源采用「RTX_5090」，可稳定支撑实时语音合成服务运行。本模型仅支持英文文本输入。

二、效果展示

VibeVoice-Realtime 在核心能力上表现优异：

实时 TTS：输入文本后可快速生成语音输出
多说话人支持：同一文本可切换不同音色风格
高自然度语音：音质清晰，语调自然
长文本稳定合成：无明显断句或失真问题
实时交互能力强，适用于对话系统、语音助手等场景

三、运行步骤

1. 启动容器

启动容器后点击 API 地址即可进入 Web 界面

2. 开始使用

若显示「Bad Gateway」, 这表示模型正在初始化，由于模型较大，请等待 1-2 分钟后刷新页面。

使用 Safari 浏览器时，音频可能无法直接播放，需要下载后进行播放。

参数说明

语音生成参数
- CFG Scale：控制语音风格强度，数值越大情感越强。
说话人参数
- Speaker Voice：选择不同的说话人音色。

引用信息

本项目引用信息如下：

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,
  title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2508.19205},
  year={2025}
}

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

音频生成式 AI

OmniVoice：支持 600+ 语言的高质量 TTS

2 个月前

使用 Free-CPU 部署 MOSS-TTS-Nano

2 个月前

Voxtral 4B TTS 2603 多语言语音生成

3 个月前

Voxtral-Mini-4B-Realtime-2602 多语言实时语音转录

4 个月前

VibeVoice-ASR：多功能端到端语音识别 Demo

4 个月前

MOSS-TTS ：高保真多场景语音生成模型

4 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

VibeVoice-Realtime TTS：实时语音合成服务

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

引用信息

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VibeVoice-Realtime TTS：实时语音合成服务

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

引用信息

教程概览

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

Voxtral-Mini-4B-Realtime-2602 多语言实时语音转录

VibeVoice-ASR：多功能端到端语音识别 Demo

MOSS-TTS ：高保真多场景语音生成模型

用 AI 构建 AI

HyperAI Newsletters

Command Palette

VibeVoice-Realtime TTS：实时语音合成服务

一、教程简介

二、效果展示

三、运行步骤

1. 启动容器

2. 开始使用

参数说明

引用信息

教程概览

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

Voxtral-Mini-4B-Realtime-2602 多语言实时语音转录

VibeVoice-ASR：多功能端到端语音识别 Demo

MOSS-TTS ：高保真多场景语音生成模型

用 AI 构建 AI

HyperAI Newsletters

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

Voxtral-Mini-4B-Realtime-2602 多语言实时语音转录

VibeVoice-ASR：多功能端到端语音识别 Demo

MOSS-TTS ：高保真多场景语音生成模型

相关教程

OmniVoice：支持 600+ 语言的高质量 TTS

使用 Free-CPU 部署 MOSS-TTS-Nano

Voxtral 4B TTS 2603 多语言语音生成

Voxtral-Mini-4B-Realtime-2602 多语言实时语音转录

VibeVoice-ASR：多功能端到端语音识别 Demo

MOSS-TTS ：高保真多场景语音生成模型