Auffusion: 텍스트-to-오디오 생성을 위한 확산 모델과 대규모 언어 모델의 힘을 활용하기

최근 디퓨전 모델과 대규모 언어 모델(Large Language Models, LLMs)의 발전은 AIGC(인공지능 기반 콘텐츠 생성) 분야를 크게 촉진하고 있다. 자연어 프롬프트로부터 오디오를 생성하는 텍스트-오디오(Text-to-Audio, TTA)는 AIGC의 새로운 응용 분야로서 점점 더 많은 주목을 받고 있다. 그러나 기존의 TTA 연구들은 특히 복잡한 텍스트 입력에 대해 생성 품질과 텍스트-오디오 일치도 측면에서 여전히 어려움을 겪고 있다. 최신 텍스트-이미지(Text-to-Image, T2I) 디퓨전 모델의 성공 사례에서 영감을 받아, 우리는 T2I 모델 아키텍처를 TTA 작업에 적합하게 변형한 Auffusion이라는 TTA 시스템을 제안한다. 이는 기존 모델의 내재된 생성 능력과 정밀한 다중모달 일치 특성을 효과적으로 활용함으로써, TTA 작업에 적합한 구조를 구현한다. 주관적 및 객관적 평가를 통해 Auffusion이 제한된 데이터와 계산 자원으로도 기존 TTA 접근 방식을 능가함을 입증하였다. 또한, 기존 T2I 연구들은 인코더 선택이 다중모달 일치도, 특히 세부적인 디테일과 객체 바인딩 측면에서 큰 영향을 미친다는 점을 인지하고 있으나, 이와 유사한 평가가 기존 TTA 연구에서는 부족한 실정이었다. 본 연구는 체계적인 아블레이션 실험과 혁신적인 크로스 어텐션 맵 시각화를 통해 TTA에서의 텍스트-오디오 일치도에 대한 통찰력을 제공한다. 실험 결과, Auffusion이 텍스트 설명에 정확하게 부합하는 오디오를 생성하는 데 있어 뛰어난 능력을 지닌다는 것이 확인되었으며, 이는 오디오 스타일 전이, 인페인팅 및 기타 오디오 조작 작업에서도 추가적으로 입증되었다. 본 연구의 구현 코드와 데모는 https://auffusion.github.io 에서 확인할 수 있다.