HyperAI

Abstract

This report presents VibeVoice, a novel model designed to synthesizelong-form speech with multiple speakers by employing next-token diffusion,which is a unified method for modeling continuous data by autoregressivelygenerating latent vectors via diffusion. To enable this, we introduce a novelcontinuous speech tokenizer that, when compared to the popular Encodec model,improves data compression by 80 times while maintaining comparable performance.The tokenizer effectively preserves audio fidelity while significantly boostingcomputational efficiency for processing long sequences. Thus, VibeVoice cansynthesize long-form speech for up to 90 minutes (in a 64K context windowlength) with a maximum of 4 speakers, capturing the authentic conversational``vibe'' and surpassing open-source and proprietary dialogue models.

Abstract

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Abstract

Build AI with AI

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Abstract

Build AI with AI

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Abstract

Build AI with AI

HyperAI Newsletters

Command Palette

VibeVoice Technical Report

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Abstract

Build AI with AI

HyperAI Newsletters

Command Palette

VibeVoice Technical Report

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Abstract

Build AI with AI

HyperAI Newsletters

Command Palette

VibeVoice Technical Report

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Abstract

Build AI with AI

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang