9일 전
AudioLM: 음성 생성을 위한 언어 모델링 접근법
Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Dominik Roblek, Olivier Teboul, David Grangier, Marco Tagliasacchi, Neil Zeghidour

초록
우리는 장기적인 일관성을 갖는 고품질 음성 생성을 위한 AudioLM 프레임워크를 소개한다. AudioLM은 입력 음성을 이산 토큰 시퀀스로 변환하고, 이 표현 공간에서 음성 생성을 언어 모델링 문제로 재정의한다. 기존의 음성 토크나이저들이 재구성 품질과 장기적 구조 간의 다양한 트레이드오프를 제공함을 보여주며, 이러한 두 목표를 동시에 달성하기 위한 하이브리드 토크나이제이션 방식을 제안한다. 구체적으로는, 음성 데이터로 사전 훈련된 마스크된 언어 모델의 이산화된 활성화를 활용하여 장기적 구조를 포착하고, 신경망 기반 음성 코덱이 생성하는 이산 코드를 활용하여 고품질 합성을 달성한다. 대규모 원시 음성 파형 데이터 코퍼스를 기반으로 훈련함으로써, AudioLM는 짧은 프롬프트를 기반으로 자연스럽고 일관성 있는 음성 연속을 생성할 수 있다. 음성 데이터로 훈련된 경우, 전사나 주석 없이도 AudioLM은 문법적·의미적으로 타당한 음성 연속을 생성하면서도, 훈련되지 않은 화자의 발화자 정체성과 억양을 유지한다. 또한, 음악의 기호적 표현 없이 훈련되었음에도 불구하고, 음성 데이터에만 기반하여 일관된 피아노 음악 연속을 생성함을 보여줌으로써, 본 방법이 음성 외 영역에도 확장 가능함을 입증한다.