
이 논문은 적대적 흐름 매칭 최적화를 통해 고음질 및 고효율 음파 생성을 가능하게 하는 PeriodWave-Turbo 모델을 소개한다. 최근 조건부 흐름 매칭(Conditional Flow Matching, CFM) 생성 모델은 단일 벡터 필드 추정 목표를 활용하여 음파 생성 작업에 성공적으로 적용되고 있다. 이러한 모델들은 고음질 음파 신호를 생성할 수는 있으나, 단일 생성 단계만을 필요로 하는 GAN 기반 모델과 비교해 상당히 많은 ODE 단계를 요구한다. 또한, 노이즈가 있는 벡터 필드 추정으로 인해 생성 샘플이 고주파 정보를 부족하게 되는 문제가 있으며, 이는 고주파 재현을 보장하지 못한다. 이러한 제한점을 해결하기 위해, 우리는 사전 훈련된 CFM 기반 생성 모델에 고정 단계 생성기 수정을 도입하여 성능을 향상시켰다. 재구성 손실과 적대적 피드백을 활용하여 고음질 음파 생성 속도를 가속화하였으며, 적대적 흐름 매칭 최적화를 통해 단 1,000단계의 미세 조정만으로 다양한 목적 지표에서 최신 기술 수준의 성능을 달성할 수 있었다. 또한 추론 속도를 기존 16단계에서 2단계 또는 4단계로 크게 단축시켰다. 더불어, PeriodWave의 기반 네트워크 파라미터를 29M에서 70M으로 확장하여 일반화 능력을 향상시킨 결과, LibriTTS 데이터셋에서 음성 품질의 주관적 평가 지표인 PESQ 점수 4.454를 기록하며 사전에 없던 높은 성능을 달성하였다. 오디오 샘플, 소스 코드 및 체크포인트는 https://github.com/sh-lee-prml/PeriodWave 에서 제공될 예정이다.