Command Palette
Search for a command to run...
온라인 튜토리얼 | 마이크로소프트, 4개 역할 간 90분간의 자연스러운 대화가 가능한 VibeVoice 오픈소스 공개

최근 텍스트 음성 변환(TTS) 기술은 상당한 발전을 이루어, 한 명의 화자가 말하는 짧은 음성을 고음질로 자연스럽게 합성할 수 있게 되었습니다. 그러나 여러 화자가 참여하는 장문의 대화 오디오를 확장 가능하게 합성하는 데에는 여전히 상당한 어려움이 남아 있어, 팟캐스트나 다인용 오디오북과 같은 분야에서의 활용이 제한적입니다.
기존 방식은 독립적으로 합성된 발화를 연결하는 방식으로 오디오를 생성하더라도 자연스러운 대화 전환과 내용 인식을 통한 음성 생성을 구현하는 데 한계가 있습니다. 산업 응용 분야의 요구가 증가함에 따라 다양한 분야에서 다중 화자 장문 대화 음성 생성에 대한 연구가 활발히 진행되고 있습니다.하지만 대부분의 결과는 아직 오픈 소스로 공개되지 않았거나, 생성된 데이터의 길이와 안정성에 관한 문제가 여전히 해결되지 않은 상태입니다.
이러한 맥락에서,마이크로소프트는 확장 가능한 장문형 다중 화자 음성 합성 기술을 구현하기 위해 VibeVoice를 오픈소스로 공개했습니다. VibeVoice는 긴 다중 화자 음성을 합성하기 위해 차기 토큰 확산 방식을 사용합니다. 이 방식은 확산 자기회귀를 이용하여 연속 데이터를 모델링하는 잠재 벡터를 생성하는 통합된 방법입니다.
이를 위해 연구팀은 현재 널리 사용되는 인코더 모델과 비교하여 성능은 유사하지만 데이터 압축률을 80배 향상시킨 혁신적인 연속 음성 분할기를 개발했습니다. 그 결과 최대 3200배(7.5Hz 프레임 속도에 해당)의 압축률을 달성했습니다. 이는 오디오 충실도를 유지하면서 긴 시퀀스 처리의 계산 효율성을 크게 향상시킵니다.

단순한 아키텍처에도 불구하고 VibeVoice는 탁월한 기능을 보여줍니다.이 기술은 64K 컨텍스트 창 내에서 최대 4명의 화자가 참여하는 최대 90분 분량의 음성을 합성할 수 있으며, 더욱 풍부한 음색, 자연스러운 억양, 그리고 실제 대화의 분위기를 포착합니다.이 모델은 다양한 언어 환경에서 뛰어난 전이성을 보여주며, 전반적인 성능 면에서 기존의 오픈 소스 및 독점 대화 모델을 능가합니다.

한 해가 저물어가는 시점에서, 이 글에서는 VibeVoice를 사용하여 1분 20초 길이의 새해 인사 오디오 클립을 생성했습니다. 생성된 클립의 음질은 기존의 단조롭고 기계적인 소리에서 벗어나 풍부하고 입체적인 음색과 감정적 긴장감을 표현하여 따뜻하고 생생하게 들리도록 크게 개선되었습니다.
"VibeVoice-Realtime TTS: 실시간 음성 합성 서비스"가 HyperAI 웹사이트(hyper.ai)의 튜토리얼 섹션에서 제공됩니다. 단 한 번의 클릭으로 배포하고 사용해 볼 수 있습니다!
튜토리얼 링크:
데모 실행
1. hyper.ai 홈페이지에 접속한 후, "VibeVoice-Realtime TTS: 실시간 음성 합성 서비스"를 선택하거나 "튜토리얼" 페이지에서 해당 항목을 선택하세요. 그런 다음 "온라인으로 튜토리얼 실행"을 클릭하세요.



2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.
참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA GeForce RTX 5090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "Pay As You Go" 또는 "Daily Plan/Weekly Plan/Monthly Plan"을 선택한 다음 "Continue job execution"을 클릭합니다.
HyperAI는 신규 사용자를 위한 가입 보너스를 제공합니다. 단 $1로 5시간 동안 RTX 5090 컴퓨팅 파워를 이용할 수 있으며(정가 $2.45), 이 리소스는 무기한으로 사용 가능합니다.


4. 리소스 할당을 기다리세요. 첫 번째 복제에는 약 3분이 소요됩니다. 상태가 "실행 중"으로 변경되면 "API 주소" 옆의 이동 화살표를 클릭하여 데모 페이지로 이동하세요.

효과 시연
데모 실행 페이지에 접속한 후 테스트 비디오를 업로드하고 "변환할 텍스트" 필드에 텍스트를 입력한 다음 "화자 음성" 옵션에서 7가지 음색 중 하나를 선택하세요. "CFG 스케일"을 조정하여 음성 스타일의 강도를 조절할 수 있으며, 값이 높을수록 감정이 강해집니다. 마지막으로 "음성 생성"을 클릭하고 오디오가 생성될 때까지 잠시 기다리세요.

한 해가 저물어가는 지금, 바이브보이스의 새해 인사 영상을 감상해 보세요!
위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!
튜토리얼 링크:








