Microsoft VibeVoice-1.5B는 TTS 기술의 경계를 새롭게 정의합니다.

1. 튜토리얼 소개

짓다

VibeVoice-1.5B는 Microsoft에서 2025년 8월에 출시한 새로운 텍스트 음성 변환(TTS) 모델입니다. 팟캐스트와 같이 표현력이 풍부하고 장문의 다중 화자 대화형 오디오를 생성합니다. 이 모델은 혁신적인 연속 음성 토큰화 기술과 차세대 토큰 확산 프레임워크를 대규모 언어 모델(LLM)과 결합하여 높은 충실도를 유지하면서 긴 오디오 시퀀스를 효율적으로 처리합니다. VibeVoice는 최대 90분 분량의 음성을 합성할 수 있으며, 최대 4명의 화자를 지원합니다. 이 모델은 기존 TTS 시스템의 한계를 극복하고 자연스러운 대화와 감정 표현을 위한 새로운 가능성을 제공합니다.

이 튜토리얼에서 사용된 컴퓨팅 리소스는 RTX 4090 카드 1개입니다.

2. 효과 표시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

구체적인 매개변수:

  • 생성 매개변수
    • CFG 스케일: 생성된 오디오와 입력된 대화 텍스트 간의 일관성을 조정합니다.

결과

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓