F5-E2 TTS는 단 3초 만에 모든 사운드를 복제합니다.

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)

초록

이 논문은 흐름 매칭(flow matching)과 확산 변환기(Diffusion Transformer, DiT)를 기반으로 한 완전 비자율적(text-to-speech, TTS) 시스템인 F5-TTS를 소개한다. 기존의 지속 시간 모델(duration model), 텍스트 인코더(text encoder), 음소 정렬(phoneme alignment)과 같은 복잡한 설계가 필요하지 않으며, 텍스트 입력은 음성 입력과 동일한 길이가 되도록 채우기 토큰(filler tokens)으로 패딩한 후, 음성 생성을 위한 노이즈 제거(denoising)를 수행한다. 이 접근 방식은 기존의 E2 TTS에서 처음으로 타당성이 입증된 바 있다. 그러나 E2 TTS의 원래 설계는 수렴 속도가 느리고 강건성(robustness)이 낮아 이해와 활용이 어려운 문제가 있었다. 이를 해결하기 위해 본 연구에서는 ConvNeXt를 활용하여 입력을 모델링함으로써 텍스트 표현을 보다 정교하게 개선하고, 음성과의 정렬을 용이하게 하였다. 또한 추론 시점(inference-time)에서 사용 가능한 Sway Sampling 전략을 제안하였으며, 이는 모델의 성능과 효율성을 크게 향상시켰다. 이 흐름 단계(flow step)에 대한 샘플링 전략은 재학습 없이 기존의 흐름 매칭 기반 모델에 간편하게 적용 가능하다. 본 연구의 설계는 더 빠른 학습을 가능하게 하며, 추론 실시간 비율(RTF, real-time factor)을 0.15로 달성하여, 최신의 확산 기반 TTS 모델 대비 크게 개선된 성능을 보였다. 공개된 10만 시간 분량의 다국어 데이터셋을 기반으로 학습한 F5-TTS는 매우 자연스럽고 표현력이 풍부한 제로샷(zero-shot) 능력, 원활한 코드 스위칭(code-switching) 능력, 그리고 속도 제어 효율성을 모두 갖추고 있다.

소스 PDF 코드 보기