2달 전
ETTA: 텍스트-오디오 모델의 설계 공간 해명
Lee, Sang-gil ; Kong, Zhifeng ; Goel, Arushi ; Kim, Sungwon ; Valle, Rafael ; Catanzaro, Bryan

초록
최근 몇 년간 텍스트-오디오(TTA) 합성 분야에서 상당한 진전이 이루어져 사용자가 자연어 프롬프트로부터 생성된 합성 오디오를 통해 창의적인 작업 흐름을 풍부하게 하는 것이 가능해졌습니다. 그러나 이러한 진전에도 불구하고 데이터, 모델 아키텍처, 학습 목적 함수, 샘플링 전략 등이 대상 벤치마크에 미치는 영향은 잘 이해되지 않고 있습니다. TTA 모델의 설계 공간에 대한 종합적인 이해를 제공하기 위해 우리는 확산 모델과 플로우 매칭 모델에 중점을 둔 대규모 실증 실험을 수행했습니다.우리의 기여는 다음과 같습니다: 1) AF-Synthetic, 오디오 이해 모델로부터 얻은 고품질 합성 캡션으로 구성된 대형 데이터셋; 2) TTA 모델의 다양한 아키텍처, 학습, 추론 설계 선택 사항에 대한 체계적인 비교; 3) 생성 품질과 추론 속도 측면에서 샘플링 방법과 그 파레토 곡선(Pareto curves)에 대한 분석. 이 광범위한 분석에서 얻은 지식을 바탕으로 최고의 모델인 Elucidated Text-To-Audio (ETTA)를 제안합니다.AudioCaps와 MusicCaps 벤치마크에서 평가할 때 ETTA는 공개적으로 이용 가능한 데이터로 학습된 기준 모델보다 개선된 성능을 보여주며, 독점 데이터로 학습된 모델들과도 경쟁력을 갖추고 있습니다. 마지막으로, ETTA가 복잡하고 상상력 있는 캡션을 따라 창의적인 오디오를 생성하는 능력이 향상되었음을 보여줍니다. 이는 현재 벤치마크보다 더 어려운 작업입니다.