Command Palette
Search for a command to run...

초록
이 보고서는 다음 토큰 확산(Next-token Diffusion) 기법을 활용하여 다수의 화자에 대한 장문의 음성 콘텐츠를 합성할 수 있도록 설계된 새로운 모델인 VibeVoice를 제안한다. 다음 토큰 확산은 확산 기반 방식으로 잠재 벡터를 순차적으로 생성함으로써 연속 데이터를 통합적으로 모델링하는 기법이다. 이를 가능하게 하기 위해, 기존에 널리 사용되는 Encodec 모델과 비교했을 때 데이터 압축률을 80배 향상시키면서도 유사한 성능을 유지하는 새로운 연속형 음성 토크나이저를 도입한다. 이 토크나이저는 음성의 정밀도를 효과적으로 보존하면서도 장문 시퀀스 처리에 있어 계산 효율성을 크게 높인다. 결과적으로 VibeVoice는 최대 4명의 화자까지 지원하며, 64K의 컨텍스트 창 크기 기준으로 최대 90분에 이르는 장문의 음성을 합성할 수 있으며, 자연스러운 대화 분위기('vibe')를 정확히 포착하여 오픈소스 및 사내 전용 대화 모델들을 뛰어넘는 성능을 발휘한다.