2달 전

Matcha-TTS: 조건부 흐름 일치를 이용한 빠른 TTS 아키텍처

Shivam Mehta; Ruibo Tu; Jonas Beskow; Éva Székely; Gustav Eje Henter
Matcha-TTS: 조건부 흐름 일치를 이용한 빠른 TTS 아키텍처
초록

우리는 빠른 텍스트-음성 변환(TTS) 음향 모델링을 위한 새로운 인코더-디코더 구조인 Matcha-TTS를 소개합니다. 이 모델은 최적 운송 조건부 유동 일치(OT-CFM, Optimal-Transport Conditional Flow Matching) 방법을 사용하여 훈련됩니다. 이를 통해 점수 일치(score matching) 방법으로 훈련된 모델보다 적은 합성 단계로도 높은 출력 품질을 제공하는 ODE 기반 디코더를 얻을 수 있습니다. 또한 신중한 설계 선택으로 각 합성 단계가 빠르게 실행될 수 있도록 보장합니다. 이 방법은 확률적이고 비자기회귀적이며, 외부 정렬 없이 처음부터 말하기를 배웁니다. 강력한 사전 훈련 베이스라인 모델과 비교할 때, Matcha-TTS 시스템은 가장 작은 메모리 용량을 가지고 있으며, 긴 문장에서 가장 빠른 모델의 속도와 견줄 만하며, 청취 테스트에서 가장 높은 평균 의견 점수(mean opinion score)를 달성했습니다. 오디오 예제, 코드 및 사전 훈련된 모델에 대한 자세한 내용은 https://shivammehta25.github.io/Matcha-TTS/를 참조하시기 바랍니다.

Matcha-TTS: 조건부 흐름 일치를 이용한 빠른 TTS 아키텍처 | 최신 연구 논문 | HyperAI초신경