2달 전

안정적인 오디오 열기

Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

초록

오픈 생성 모델은 커뮤니티에 매우 중요하며, 새로운 모델을 제시할 때 미세 조정(fine-tuning)과 기준선(baseline)으로 활용될 수 있습니다. 그러나 현재의 대부분 텍스트-오디오 모델은 사적(private)이며 예술가와 연구자들이 이를 기반으로 작업하기 어렵습니다. 본 논문에서는 크리에이티브 커먼즈(Creative Commons) 데이터로 훈련된 새로운 오픈 웨이트(open-weights) 텍스트-오디오 모델의 아키텍처와 훈련 과정을 설명합니다. 평가 결과, 해당 모델의 성능은 다양한 지표에서 최신 기술(state-of-the-art)과 경쟁력을 보였습니다. 특히, 보고된 FDopenl3 결과(생성물의 현실감 측정)는 44.1kHz에서 고품질 스테레오 사운드 합성을 위한 잠재력을 입증하였습니다.