검색 증강형 텍스트-오디오 생성

최근 텍스트-음성(Text-to-Audio, TTA) 생성 분야에서의 진전에도 불구하고, 본 연구는 AudioCaps와 같은 클래스 분포가 불균형한 데이터셋으로 훈련된 최신 TTA 모델들(예: AudioLDM)이 생성 성능에서 편향을 보임을 지적한다. 구체적으로, 일반적인 음성 클래스에 대해서는 뛰어난 성능을 발휘하지만 희귀한 클래스에서는 성능이 저하되며, 이로 인해 전반적인 생성 성능이 저하된다. 이러한 문제를 우리는 '긴꼬리(long-tailed) 텍스트-음성 생성'이라고 정의한다. 이 문제를 해결하기 위해, TTA 모델에 간단한 검색 증강(retrieval-augmented) 접근법을 제안한다. 구체적으로, 입력 텍스트 프롬프트를 기반으로 대조적 언어-음성 사전 훈련(Contrastive Language-Audio Pretraining, CLAP) 모델을 활용해 관련된 텍스트-음성 쌍을 검색한다. 검색된 음성-텍스트 데이터의 특징은 TTA 모델의 학습을 안내하기 위한 추가 조건으로 사용된다. 본 연구에서 제안한 방법을 AudioLDM에 적용하여 개선된 시스템을 구성하였으며, 이를 Re-AudioLDM이라고 명명한다. AudioCaps 데이터셋에서 Re-AudioLDM은 기존 방법들보다 크게 앞서는 최고 수준의 프리체트 음성 거리(Frechet Audio Distance, FAD) 1.37을 달성하였다. 또한 Re-AudioLDM이 복잡한 장면, 희귀 음성 클래스뿐 아니라 미리 보지 못한 음성 유형에 대해서도 현실감 있는 음성을 생성할 수 있음을 보여주며, TTA 작업에서의 잠재적 활용 가능성을 시사한다.