@article{vibevoice2024, title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support}, author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei}, journal={arXiv preprint arXiv:2412.08635}, year={2024} } @article{vibevoice2025, title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech}, author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei}, journal={arXiv preprint arXiv:2508.19205}, year={2025} }

날짜

7달 전

조직

태그

RTX 5090

Text-to-Audio

논문 URL

2508.19205

라이선스

MIT

GitHub

microsoft/VibeVoice50.3k

1. 튜토리얼 소개

VibeVoice-Realtime TTS는 Microsoft Research 팀에서 2025년 12월에 발표한 VibeVoice-Realtime-0.5B 스트리밍 음성 합성 모델을 기반으로 구축된 고품질 실시간 텍스트 음성 변환(TTS) 시스템입니다. 이 시스템은 긴 다중 화자 음성 합성에서 연속적인 데이터를 모델링하기 위해 새로운 차기 토큰 확산 방식을 사용하고 효율적인 연속 음성 분할기를 도입하여 최대 4명의 화자를 지원하고 64KB 컨텍스트 윈도우 내에서 최대 90분 분량의 음성을 생성할 수 있습니다. 실제 대화의 분위기를 포착하면서 오디오 충실도를 유지하고 계산 효율성을 크게 향상시킵니다. 관련 연구 논문은 여기에서 확인할 수 있습니다. VibeVoice: 고음질 다중 화자 스트리밍 텍스트 음성 변환 이 시스템은 Grado 웹 인터페이스를 통해 다중 화자 음성 생성, 저지연 실시간 추론 및 시각적 상호 작용을 지원합니다.

핵심 기능:

다중 화자를 위한 실시간 음성 합성
스트리밍 추론, 저지연 출력
고음질 24000Hz 음성 샘플링 속도
CFG 규모 제어 가능 발전 지원
GPU 가속 추론
외부 네트워크에 의존하지 않고 완벽한 로컬 오프라인 배포가 가능합니다.

이 튜토리얼에서는 Grado를 사용하여 VibeVoice-Realtime-0.5B 코어 모델을 배포하고, "RTX_5090" 컴퓨팅 리소스를 활용하여 실시간 음성 합성 서비스를 안정적으로 지원하는 방법을 설명합니다. 이 모델은 영어 텍스트 입력만 지원합니다.

2. 효과 표시

VibeVoice-Realtime은 핵심 기능에서 탁월한 성능을 보여줍니다.

실시간 TTS: 텍스트를 입력하면 빠르게 음성 출력을 생성합니다.
다중 화자 지원: 동일한 텍스트에 대해 다양한 음성 스타일을 전환할 수 있습니다.
매우 자연스러운 음성 품질: 선명한 소리와 자연스러운 억양.
긴 텍스트도 안정적으로 합성 가능: 구두점이나 왜곡 문제 없음.
이 시스템은 강력한 실시간 상호 작용 기능을 갖추고 있어 대화 시스템 및 음성 비서와 같은 시나리오에 적합합니다.

3. 작업 단계

1. 컨테이너를 시작하세요

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

2. 시작하기

"Bad Gateway" 메시지가 표시되면 모델이 초기화 중이라는 의미입니다. 모델 크기가 크기 때문에 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

매개변수 설명

음성 생성 매개변수
- CFG 척도: 말하기 스타일의 강도를 조절합니다. 값이 높을수록 감정이 강해집니다.
스피커 파라미터
- 화자 음성: 다양한 화자 음성을 선택하세요.

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,  
  title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},  
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},  
  journal={arXiv preprint arXiv:2508.19205},  
  year={2025}  
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

오디오 생성형 AI

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

VibeVoice-Realtime TTS: 실시간 음성 합성 서비스

1. 튜토리얼 소개

2. 효과 표시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 시작하기

매개변수 설명

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

VibeVoice-Realtime TTS: 실시간 음성 합성 서비스

1. 튜토리얼 소개

2. 효과 표시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 시작하기

매개변수 설명

인용 정보

Notebook 개요

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

Voxtral-Mini-4B-Realtime-2602 다국어 실시간 음성 전사

VibeVoice-ASR: 다기능 엔드투엔드 음성 인식 데모

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

AI로 AI 구축

HyperAI Newsletters

Command Palette

VibeVoice-Realtime TTS: 실시간 음성 합성 서비스

1. 튜토리얼 소개

2. 효과 표시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 시작하기

매개변수 설명

인용 정보

Notebook 개요

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

Voxtral-Mini-4B-Realtime-2602 다국어 실시간 음성 전사

VibeVoice-ASR: 다기능 엔드투엔드 음성 인식 데모

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

AI로 AI 구축

HyperAI Newsletters

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

Voxtral-Mini-4B-Realtime-2602 다국어 실시간 음성 전사

VibeVoice-ASR: 다기능 엔드투엔드 음성 인식 데모

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

Voxtral-Mini-4B-Realtime-2602 다국어 실시간 음성 전사

VibeVoice-ASR: 다기능 엔드투엔드 음성 인식 데모

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델