9일 전
스피릿 LM: 교차된 구어 및 문어 언어 모델
Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Christophe Ropers, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Mary Williamson, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux

초록
우리는 텍스트와 음성의 자유로운 혼합이 가능한 기초 다중모달 언어 모델인 Spirit LM을 소개합니다. 본 모델은 7B 파라미터 규모의 사전 훈련된 텍스트 기반 언어 모델을 기반으로 하며, 텍스트와 음성 단위를 지속적으로 훈련시켜 음성 모달리티로 확장하였습니다. 음성 및 텍스트 시퀀스는 단일 토큰 스트림으로 연결되며, 소규모 자동으로 정제된 음성-텍스트 병렬 코퍼스를 사용하여 단어 수준에서 교차 배치( interleaving ) 방식으로 훈련됩니다. Spirit LM은 두 가지 버전으로 제공됩니다: 음성 음소 단위(HuBERT)를 사용하는 Base 버전과 음소 단위 외에도 음성의 감정 표현을 모델링하기 위해 음높이(pitch) 및 스타일(style) 단위를 추가로 사용하는 Expressive 버전입니다. 두 버전 모두 텍스트를 하위어(Subword) BPE 토큰으로 인코딩합니다. 최종적으로 얻어진 모델은 텍스트 모델의 의미적 능력과 음성 모델의 표현적 능력을 모두 갖추고 있습니다. 또한, Spirit LM이 다양한 모달 간에 소량의 예시(few-shot)로 새로운 작업(예: 음성 인식 ASR, 음성 합성 TTS, 음성 분류)을 학습할 수 있음을 실험적으로 입증하였습니다. 본 연구에서는 모델 가중치 및 추론 코드를 공개합니다.