Diffsound: 텍스트에서 사운드 생성을 위한 이산 확산 모델

인간이 원하는 사운드 효과를 생성하는 것은 중요한 주제이다. 그러나 사운드 생성 분야에서 텍스트 조건부 사운드 생성에 관한 연구는 여전히 매우 제한적이다. 본 연구에서는 텍스트 프롬프트를 기반으로 사운드를 생성하는 방식을 탐구하고, 텍스트 인코더, 벡터 양자화 변분 오토인코더(VQ-VAE), 디코더, 그리고 보코더로 구성된 새로운 텍스트-투-사운드 생성 프레임워크를 제안한다. 이 프레임워크는 먼저 텍스트 인코더에서 추출한 텍스트 특징을 VQ-VAE를 활용하여 멜스펙트로그램으로 변환하고, 이후 디코더를 통해 멜스펙트로그램을 음성 파형으로 변환하는 방식으로 작동한다. 우리는 디코더가 생성 성능에 중대한 영향을 미친다는 점을 발견하였다. 따라서 본 연구에서는 효과적인 디코더 설계에 집중한다. 우선, 이전의 사운드 생성 연구에서 최고 성능을 보인 것으로 입증된 전통적인 순차적 자가회귀(autoregressive, AR) 디코더를 기반으로 시작한다. 그러나 AR 디코더는 멜스펙트로그램 토큰을 일정한 순서로 하나씩 예측하기 때문에 단방향 편향과 오류 누적 문제를 야기한다. 더불어 AR 디코더를 사용할 경우 사운드 생성 시간이 사운드 길이에 비례하여 선형적으로 증가한다. 이러한 AR 디코더의 한계를 극복하기 위해, 이산 확산 모델(Discrete Diffusion Model) 기반의 비자기회귀 디코더인 Diffsound를 제안한다. 구체적으로 Diffsound는 멜스펙트로그램 토큰을 한 번의 단계에서 모두 예측한 후, 다음 단계에서 예측 결과를 정제하여 몇 차례 반복 후 최적의 예측 결과를 도출한다. 실험 결과, 제안하는 Diffsound는 AR 디코더에 비해 더 우수한 텍스트-투-사운드 생성 성능을 보이며, 생성 속도 면에서도 약 5배 빠른 성능을 나타냈다. 예를 들어, 평가 점수(MOS)는 3.56 대 2.786으로 향상되었으며, 이는 텍스트 기반 사운드 생성의 효율성과 품질 향상에 있어 중요한 진전을 의미한다.