AudioGen: 텍스트 기반 오디오 생성

설명적인 텍스트 캡션을 조건으로 오디오 샘플을 생성하는 문제를 다룹니다. 본 연구에서는 텍스트 입력을 조건으로 오디오 샘플을 생성하는 자기회귀적 생성 모델인 AudioGen을 제안합니다. AudioGen은 학습된 이산형 오디오 표현을 기반으로 작동합니다. 텍스트에서 오디오를 생성하는 작업은 여러 가지 도전 과제를 수반합니다. 음향이 매질을 통해 전파되는 방식 때문에, 서로 다른 '객체'를 구분하는 것이 어려울 수 있습니다(예: 동시에 말하는 여러 사람을 분리하는 것). 이는 실생활 녹음 조건(예: 배경 소음, 반향 등)으로 인해 더욱 복잡해집니다. 또한 텍스트 레이블이 부족하여 모델의 확장성을 제한하는 또 다른 제약이 존재합니다. 마지막으로, 고해상도 오디오를 모델링하기 위해서는 높은 샘플링 주파수로 오디오를 인코딩해야 하며, 이는 매우 긴 시계열 데이터를 초래합니다. 위의 문제들을 완화하기 위해, 다양한 오디오 샘플을 혼합하는 증강 기법을 제안하며, 이를 통해 모델이 내부적으로 다중 소스를 분리하는 능력을 학습하도록 유도합니다. 텍스트-오디오 데이터 포인트의 부족을 해결하기 위해, 다양한 유형의 오디오와 텍스트 레이블을 포함하는 총 10개의 데이터셋을 수집하였습니다. 더 빠른 추론을 위해 다중 스트림 모델링을 탐색하였으며, 이는 짧은 시퀀스를 사용하면서도 유사한 비트레이트와 인지적 품질을 유지할 수 있도록 합니다. 텍스트에 대한 적합성을 향상시키기 위해, 분류기 없는 안내(classifier-free guidance) 기법을 적용하였습니다. 평가된 기준 모델들과 비교했을 때, AudioGen은 객관적 및 주관적 지표 모두에서 우수한 성능을 보였습니다. 마지막으로, 제안된 방법이 조건부 및 무조건적인 오디오 연속 생성에 얼마나 효과적인지 탐구하였습니다. 샘플 보기: https://felixkreuk.github.io/audiogen