2달 전
TangoFlux: Flow 매칭과 Clap-순위 선호도 최적화를 이용한 초고속 및 정확한 텍스트-오디오 생성
Chia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria

초록
우리는 5억 1,500만 개의 매개변수를 가진 효율적인 텍스트-오디오(TTA) 생성 모델인 TangoFlux를 소개합니다. 이 모델은 단일 A40 GPU에서 단 3.7초 만에 최대 30초의 44.1kHz 오디오를 생성할 수 있습니다. TTA 모델을 정렬하는 데 있어 주요 과제는 Large Language Models (LLMs)와 달리 검증 가능한 보상이나 금준답안과 같은 구조화된 메커니즘이 부족하여 선호도 쌍을 생성하기 어려운 점입니다. 이를 해결하기 위해, 우리는 선호도 데이터를 반복적으로 생성하고 최적화하여 TTA 정렬을 강화하는 새로운 프레임워크인 CLAP-순위 선호도 최적화(CRPO)를 제안합니다. 우리는 CRPO를 사용하여 생성된 오디오 선호도 데이터셋이 기존 대안보다 우수함을 입증하였습니다. 이 프레임워크 덕분에 TangoFlux는 객관적 및 주관적 벤치마크 모두에서 최고 수준의 성능을 달성하였습니다. 우리는 모든 코드와 모델을 오픈 소스로 공개하여 TTA 생성 분야의 추가 연구를 지원합니다.