VibeVoice: 새로운 오픈소스 TTS 모델, 90분 긴 대화형 오디오와 다중 화자 표현 가능
6일 전
VibeVoice는 텍스트에서 자연스럽고 감정이 담긴 긴 대화형 오디오, 예를 들어 팟캐스트를 생성할 수 있는 혁신적인 오픈소스 음성합성 모델이다. 기존 TTS 시스템의 한계인 스케일링 어려움, 화자 일관성 부족, 자연스러운 대화 흐름 구현 문제를 해결하기 위해 설계됐다. 핵심 기술로는 초저주파(7.5Hz)에서 작동하는 연속 음성 토크나이저(음성 및 의미 토크나이저)를 도입해 음질을 유지하면서도 계산 효율을 크게 높였다. 또한 대화 흐름과 맥락을 이해하기 위해 대규모언어모델(LLM)을 활용하고, 음성 세부정보를 고해상도로 생성하는 확산모델 기반 프레임워크를 결합했다. 이로 인해 최대 90분 분량의 오디오를 4명의 화자까지 자연스럽게 생성할 수 있으며, 기존 모델의 1~2명 화자 제한을 뛰어넘었다. 팟캐스트에 배경 음악을 추가하거나 다양한 언어로 전환하는 것도 가능해 실제 콘텐츠 제작에 적합하다.