2달 전

바이브보이스 기술 보고서

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

초록

이 보고서는 다음 토큰 확산(Next-token Diffusion) 기법을 활용하여 다수의 화자에 대한 장문의 음성 콘텐츠를 합성할 수 있도록 설계된 새로운 모델인 VibeVoice를 제안한다. 다음 토큰 확산은 확산 기반 방식으로 잠재 벡터를 순차적으로 생성함으로써 연속 데이터를 통합적으로 모델링하는 기법이다. 이를 가능하게 하기 위해, 기존에 널리 사용되는 Encodec 모델과 비교했을 때 데이터 압축률을 80배 향상시키면서도 유사한 성능을 유지하는 새로운 연속형 음성 토크나이저를 도입한다. 이 토크나이저는 음성의 정밀도를 효과적으로 보존하면서도 장문 시퀀스 처리에 있어 계산 효율성을 크게 높인다. 결과적으로 VibeVoice는 최대 4명의 화자까지 지원하며, 64K의 컨텍스트 창 크기 기준으로 최대 90분에 이르는 장문의 음성을 합성할 수 있으며, 자연스러운 대화 분위기('vibe')를 정확히 포착하여 오픈소스 및 사내 전용 대화 모델들을 뛰어넘는 성능을 발휘한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

바이브보이스 기술 보고서

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

초록

AI로 AI 구축

Hyper Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang