Audiobox: 자연어 프롬프트를 활용한 통합 오디오 생성

음성은 우리 삶의 필수적인 요소이지만, 그 생성 과정은 전문 지식이 필요하고 시간이 많이 소요됩니다. 지난해 동안 연구 공동체는 더 강력한 생성 모델과 데이터 확장 전략을 도입함으로써 단일 모달리티(음성, 소리, 음악)에 대한 대규모 음성 생성 모델의 성능을 크게 향상시켰습니다. 그러나 이러한 모델들은 여러 측면에서 통제력이 부족합니다. 예를 들어, 음성 생성 모델은 텍스트 설명을 기반으로 새로운 스타일을 생성할 수 없으며, 실외 환경과 같은 특정 도메인에 대한 커버리지가 제한적입니다. 소리 생성 모델은 '사람이 말하는 소리'와 같은 추상적인 설명만으로 조건부 생성이 가능하고, 그 결과로는 모호한 인간 음성만 생성될 뿐입니다. 본 논문에서는 흐름 매칭(flow-matching) 기반의 통합형 모델인 Audiobox를 제안합니다. 이 모델은 다양한 음성 모달리티를 생성할 수 있으며, 설명 기반 및 예시 기반 프롬프팅을 설계함으로써 음성과 소리 생성의 통제력을 향상시키고, 두 모델 패러다임을 통일합니다. 음성 생성 시, 전사 텍스트, 보컬 스타일, 기타 음성 스타일을 독립적으로 제어할 수 있도록 하였습니다. 제한된 레이블을 가진 환경에서도 모델의 일반화 능력을 향상시키기 위해, 대량의 레이블 없는 음성 데이터를 활용한 자기지도 보완(self-supervised infilling) 목적 함수를 도입하여 사전 학습을 수행하였습니다. Audiobox는 음성 및 소리 생성 분야에서 새로운 기준을 설정하였으며, 제로샷 TTS(텍스트에서 음성으로)에서 Librispeech 데이터셋 기준으로 0.745의 유사도, 텍스트에서 소리 생성(T2S)에서 AudioCaps 데이터셋 기준으로 0.77의 FAD를 기록하였습니다. 이는 새로운 보컬 및 음향 스타일을 가진 음성 생성을 가능하게 하는 새로운 방법을 열어줍니다. 또한, 흐름 매칭의 기본 ODE 솔버 대비 25배 이상 빠른 생성 속도를 제공하는 Bespoke Solvers를 통합하여, 다양한 작업에서 성능 저하 없이 생성 속도를 획기적으로 향상시켰습니다. 디모는 https://audiobox.metademolab.com/ 에서 확인할 수 있습니다.