9일 전

스피릿 LM: 교차된 구어 및 문어 언어 모델

Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Christophe Ropers, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Mary Williamson, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
스피릿 LM: 교차된 구어 및 문어 언어 모델
초록

우리는 텍스트와 음성의 자유로운 혼합이 가능한 기초 다중모달 언어 모델인 Spirit LM을 소개합니다. 본 모델은 7B 파라미터 규모의 사전 훈련된 텍스트 기반 언어 모델을 기반으로 하며, 텍스트와 음성 단위를 지속적으로 훈련시켜 음성 모달리티로 확장하였습니다. 음성 및 텍스트 시퀀스는 단일 토큰 스트림으로 연결되며, 소규모 자동으로 정제된 음성-텍스트 병렬 코퍼스를 사용하여 단어 수준에서 교차 배치( interleaving ) 방식으로 훈련됩니다. Spirit LM은 두 가지 버전으로 제공됩니다: 음성 음소 단위(HuBERT)를 사용하는 Base 버전과 음소 단위 외에도 음성의 감정 표현을 모델링하기 위해 음높이(pitch) 및 스타일(style) 단위를 추가로 사용하는 Expressive 버전입니다. 두 버전 모두 텍스트를 하위어(Subword) BPE 토큰으로 인코딩합니다. 최종적으로 얻어진 모델은 텍스트 모델의 의미적 능력과 음성 모델의 표현적 능력을 모두 갖추고 있습니다. 또한, Spirit LM이 다양한 모달 간에 소량의 예시(few-shot)로 새로운 작업(예: 음성 인식 ASR, 음성 합성 TTS, 음성 분류)을 학습할 수 있음을 실험적으로 입증하였습니다. 본 연구에서는 모델 가중치 및 추론 코드를 공개합니다.

스피릿 LM: 교차된 구어 및 문어 언어 모델 | 최신 연구 논문 | HyperAI초신경