3달 전

지시 조정 LLM과 잠재 확산 모델을 활용한 텍스트-오디오 생성

Deepanway Ghosal, Navonil Majumder, Ambuj Mehrish, Soujanya Poria
지시 조정 LLM과 잠재 확산 모델을 활용한 텍스트-오디오 생성
초록

최근 대규모 언어 모델(Large Language Model, LLM)의 막대한 규모는 지시 기반 및 사고 과정 기반의 미세조정과 같은 흥미로운 특성을 가능하게 하였으며, 이는 자연어 처리(Natural Language Processing, NLP) 작업에서 제로-샷 및 희소-샷 성능을 크게 향상시켰다. 이러한 성공에 영감을 받아, 본 연구에서는 텍스트-음성(Text-to-Audio, TTA) 생성이라는 과제에 대해 지시 미세조정된 LLM인 Flan-T5를 텍스트 인코더로 채택하였다. TTA 과제는 텍스트 설명으로부터 음성을 생성하는 것을 목표로 한다. 기존의 TTA 연구들은 일반적으로 텍스트-음성 통합 인코더를 사전 학습하거나, 지시 미세조정되지 않은 모델(예: T5)을 사용하였다. 반면 본 연구에서 제안하는 잠재 확산 모델(Latent Diffusion Model, LDM) 기반의 접근법인 TANGO는, 훈련 데이터셋 크기가 기존 방법의 63분의 1에 불과하고, 텍스트 인코더를 고정한 상태에서도 AudioCaps 테스트 세트에서 대부분의 지표에서 최신 기술(SOTA)인 AudioLDM을 능가하며, 나머지 지표에서는 유사한 성능을 보였다. 이러한 성능 향상은 또한 훈련 세트 증강을 위해 음압 수준 기반의 사운드 믹싱을 도입한 결과로 볼 수 있다. 기존 방법들은 무작위 믹싱을 사용하는 반면, 본 연구는 음압 수준에 기반한 보다 구조적인 믹싱 전략을 적용함으로써 품질을 개선했다.