
초록
최근 생성 모델 기술의 발전으로 다양한 표현 방식에서 오디오 웨이브폼의 재구성 품질이 크게 향상되었다. 특히 확산 모델은 이 작업에서 뛰어난 성능을 보이지만, 개별 샘플 포인트 수준에서 작동하며 수많은 샘플링 단계가 필요하기 때문에 지연(latency) 문제가 존재한다. 본 연구에서는 멜스펙트로그램 또는 이산 음성 토큰에서 고음질 오디오 웨이브폼을 재구성하기 위해 설계된 최신의 다밴드 Rectified Flow 기반 기법인 RFWave를 제안한다. RFWave는 복잡한 스펙트로그램을 독창적으로 생성하며, 프레임 단위로 작동하여 모든 하위밴드를 동시에 처리함으로써 효율성을 극대화한다. Rectified Flow 기반의 직선적인 전송 경로를 목표로 하는 특성 덕분에, 단 10회의 샘플링 단계만으로도 정밀한 재구성을 달성한다. 실증 평가 결과, RFWave는 뛰어난 재구성 품질을 제공할 뿐만 아니라 기존 방법에 비해 훨씬 뛰어난 계산 효율성을 보이며, GPU 기반으로 실시간 대비 최대 160배 빠른 속도로 오디오 생성이 가능하다. 온라인 데모는 다음 링크에서 확인할 수 있다: https://rfwave-demo.github.io/rfwave/.