12일 전

일관성TTA: 일관성 증류를 통한 확산 기반 텍스트-오디오 생성의 가속화

Yatong Bai, Trung Dang, Dung Tran, Kazuhito Koishida, Somayeh Sojoudi
일관성TTA: 일관성 증류를 통한 확산 기반 텍스트-오디오 생성의 가속화
초록

확산 모델은 텍스트-오디오(Text-to-Audio, TTA) 생성에 핵심적인 역할을 한다. 그러나 생성 과정당 기반 노이즈 제거 네트워크에 대한 과도한 쿼리 횟수로 인해 추론 속도가 매우 느린 문제가 있다. 이 한계를 해결하기 위해, 우리는 단일 비자율적 네트워크 쿼리만을 필요로 하는 ConsistencyTTA 프레임워크를 제안한다. 이를 통해 TTA 생성 속도를 수백 배 가량 향상시킬 수 있다. 이 성과를 달성하기 위해 우리는 'CFG 인식 잠재 일관성 모델'(CFG-aware latent consistency model)을 제안하며, 일관성 생성을 잠재 공간으로 확장하고, 분류기 자유 가이던스(Classifier-Free Guidance, CFG)를 모델 훈련에 통합한다. 또한, 확산 모델과 달리 ConsistencyTTA는 오디오 공간 내 텍스트 인식 메트릭(예: CLAP 점수)과 같은 폐루프(fine-tuning) 가능 평가 지표를 활용하여 추가적인 향상을 가능하게 한다. AudioCaps 데이터셋에 대한 주관적 및 객관적 평가 결과, 확산 기반 모델 대비 ConsistencyTTA는 추론 계산량을 400배 감소시키면서도 생성 품질과 다양성은 유지함을 확인하였다.

일관성TTA: 일관성 증류를 통한 확산 기반 텍스트-오디오 생성의 가속화 | 최신 연구 논문 | HyperAI초신경