2달 전

UniAudio: 보편적인 오디오 생성을 위한 오디오 기초 모델

Yang, Dongchao ; Tian, Jinchuan ; Tan, Xu ; Huang, Rongjie ; Liu, Songxiang ; Chang, Xuankai ; Shi, Jiatong ; Zhao, Sheng ; Bian, Jiang ; Zhao, Zhou ; Wu, Xixin ; Meng, Helen
UniAudio: 보편적인 오디오 생성을 위한 오디오 기초 모델
초록

대형 언어 모델(LLM)은 다양한 생성 작업을 처리할 수 있는 능력을 보여주었습니다. 본 논문에서는 이전의 작업별 접근 방식과 달리 LLM 기술을 활용하여 주어진 입력 조건에 따라 음성, 사운드, 음악, 노래 등 여러 유형의 오디오를 생성하는 UniAudio 시스템을 제시합니다. UniAudio는 1) 모든 종류의 대상 오디오와 다른 조건 모달리티를 토큰화하고, 2) 소스-대상 쌍을 단일 시퀀스로 연결하며, 3) LLM을 사용하여 다음 토큰 예측을 수행합니다. 또한, 토큰화 과정에서 잔차 벡터 양자화 기반 신경망 인코더로 인해 발생하는 지나치게 긴 시퀀스를 처리하기 위해 다중 스케일 트랜스포머 모델이 제안되었습니다.UniAudio의 학습은 모든 생성 작업에 기반하여 165,000시간의 오디오와 10억 개의 매개변수까지 확장되었습니다. 이는 오디오의 내재적 특성뿐만 아니라 오디오와 다른 모달리티 간의 상호 관계에 대한 충분한 사전 지식을 획득하기 위한 것입니다. 따라서 학습된 UniAudio 모델은 보편적인 오디오 생성을 위한 기초 모델이 될 가능성이 있습니다. 이 모델은 모든 학습된 작업에서 강력한 성능을 보이며, 간단한 미세 조정 후 새로운 오디오 생성 작업을 원활하게 지원할 수 있습니다. 실험 결과, UniAudio는 11개 작업 중 대부분에서 최고 수준 또는 적어도 경쟁력 있는 결과를 달성했습니다. 데모와 코드는 https://github.com/yangdongchao/UniAudio 에서 제공됩니다.

UniAudio: 보편적인 오디오 생성을 위한 오디오 기초 모델 | 최신 연구 논문 | HyperAI초신경