온라인 튜토리얼 | VibeVoice-1.5B의 독특한 듀얼 토크나이저 아키텍처는 90분 분량의 4인 대화를 생성할 수 있게 하여 TTS 기술의 경계를 새롭게 정의합니다.

마이크로소프트의 최신 오픈소스 모델인 VibeVoice-1.5B는 TTS 기술 분야에 돌풍을 일으켰습니다. 15억 개의 매개변수를 가진 이 모델은 한 번에 최대 90분 분량의 매우 자연스러운 음성을 생성할 수 있으며, 최대 4명의 화자와의 대화를 시뮬레이션할 수 있습니다. 공식 블라인드 테스트 MOS(평균 의견 점수)는 최대 4.5점으로, 실제 사람 음성 품질에 가깝습니다.
VibeVoice-1.5B의 핵심 혁신은 고유한 듀얼 토크나이저 아키텍처와 확산 디코딩 기술에 있습니다.Qwen2.5 언어 모델을 기반으로, 음향 토크나이저(σ-VAE 아키텍처를 사용하여 3,200배 오디오 압축 달성)와 의미 토크나이저(텍스트의 감정과 멈춤 현상 보존에 집중)를 사용하여 7.5Hz의 초저프레임 속도로 오디오 시퀀스를 처리합니다. 디코딩 측면에서는 1억 2,300만 매개변수의 확산 디코더와 DPM-Solver 알고리즘이 결합되어 고음질 오디오 디테일을 재구성합니다.
VibeVoice-1.5B는 주로 연구 및 개발자 커뮤니티를 대상으로 팟캐스트 제작, 대화형 AI, 음성 콘텐츠 생성을 위한 새로운 도구를 제공합니다. 하지만 현재 중국어와 영어만 지원하며, 중복되는 음성을 처리하거나 배경 음향 효과를 생성할 수 없다는 점에 유의해야 합니다. Microsoft는 연구 목적의 사용을 명시적으로 강조하며, 오용을 방지하기 위해 음성 면책 조항과 감지 불가능한 워터마킹 기술을 포함하고 있습니다.
현재,Microsoft VibeVoice-1.5B는 TTS 기술의 경계를 새롭게 정의합니다.이 기능은 HyperAI 공식 웹사이트의 "튜토리얼" 섹션에서 출시되었습니다.아래 링크를 클릭하면 클릭 한 번으로 배포할 수 있습니다.
튜토리얼 링크:
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_NR0n
데모 실행
1. hyper.ai 홈페이지에서 튜토리얼 페이지를 선택하고 Microsoft VibeVoice-1.5B: TTS 기술의 경계 재정의를 선택한 다음, 이 튜토리얼을 온라인으로 실행을 클릭합니다.


2. 페이지가 이동한 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

3. "NVIDIA GeForce RTX 4090"을 선택하세요. OpenBayes 플랫폼은 필요에 따라 "Pay as you go" 또는 "Daily/Weekly/Monthly"의 네 가지 결제 옵션을 제공합니다. "PyTorch" 이미지를 선택한 후 "Continue"를 클릭하세요. 신규 사용자는 아래 초대 링크를 통해 등록하시면 RTX 4090 4시간과 CPU 사용 시간 5시간을 무료로 이용하실 수 있습니다!
HyperAI 독점 초대 링크(복사하여 브라우저에서 열기):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. 리소스가 할당될 때까지 기다리세요. 첫 번째 클로닝 과정은 약 2분이 걸립니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆에 있는 점프 화살표를 클릭하여 데모 페이지로 이동합니다. API 주소 접근 기능을 이용하기 위해서는 이용자는 실명인증을 완료해야 합니다.

효과 시연
모델 페이지에 접속한 후, "발표자 수"에서 발표자 수를 선택하고, "발표자 1-4"에 발표자를 설정하고, "대화 스크립트"에 대화 텍스트를 입력한 후, 마지막으로 "팟캐스트 생성"을 클릭합니다.
4인 대화를 예로 들면, 저자는 다음과 같은 음성을 생성했습니다.
*즉각적인:
화자 1: 이번 주말에 새로 생긴 카페에 가보는 건 어때요? 푸어오버 커피가 맛있다고 들었어요.
화자 2: 물론이죠! 하지만 토요일 오후에 요가를 가야 해서 일요일 아침에는 시간이 있어요.
발표자 3: 일요일 아침도 저한테는 잘 맞아요. 다음 주 팀 빌딩에 대해서만 이야기하고 싶어요.
화자 4: 그럼 문제없어요! 일요일 오전 10시에 카페 입구에서 만나요.
화자 1: 좋습니다. 미리 창가 좌석을 예약하겠습니다.

이 글은 이번 호에 추천하는 튜토리얼입니다. 여러분 모두 직접 체험해 보세요⬇️
튜토리얼 링크:https://go.hyper.ai/6Ii8l
2023년부터 2024년까지 AI4S 분야의 고품질 논문과 심층 해석 기사를 클릭 한 번으로 받아보세요⬇️
