
최근 들어, 다양한 비분포(Out-of-distribution) 시나리오에 조건부로 작동하는 보편적 웨이브포름 생성 작업이 연구되고 있다. 기존의 GAN 기반 방법은 빠른 웨이브포름 생성 능력에서 강점을 보였지만, 텍스트-음성 합성(TTS)과 같은 이단계(Two-stage) 작업에서 학습-추론 불일치(Train-inference mismatch) 상황에 취약하다는 문제가 있다. 한편, 확산 기반 모델은 다른 분야에서는 뛰어난 생성 성능을 보여왔지만, 웨이브포름 생성 작업에서 느린 추론 속도로 인해 주목받지 못하고 있다. 특히, 고해상도 웨이브포름 신호의 자연스러운 주기적 특성을 명시적으로 분리할 수 있는 생성 아키텍처는 존재하지 않는다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 보편적 웨이브포름 생성 모델인 PeriodWave를 제안한다. 먼저, 벡터 필드를 추정할 때 웨이브포름 신호의 주기적 특성을 효과적으로 포착할 수 있는 주기 인식 흐름 매칭 추정기(Period-aware flow matching estimator)를 도입한다. 또한, 서로 겹치지 않도록 설계된 다주기 추정기(Multi-period estimator)를 활용하여 웨이브포름 신호의 다양한 주기적 특성을 효과적으로 포착한다. 주기 수를 늘릴수록 성능 향상이 두드러지지만, 이는 계산 비용 증가를 수반한다. 이를 해결하기 위해, 주기별 배치 추론을 병렬로 처리할 수 있는 단일 주기 조건부 보편적 추정기(Single period-conditional universal estimator)를 제안한다. 더불어, 이산 웨이블릿 변환(Discrete Wavelet Transform)을 사용하여 주파수 정보를 손실 없이 분리함으로써 고주파 모델링을 강화하고, FreeU 기법을 도입하여 웨이브포름 생성 과정에서 발생하는 고주파 노이즈를 감소시킨다. 실험 결과, 본 모델은 Mel-spectrogram 재구성 및 텍스트-음성 합성(TTS) 작업 모두에서 기존 모델들을 능가함을 입증하였다. 모든 소스 코드는 https://github.com/sh-lee-prml/PeriodWave 에 공개될 예정이다.