10일 전
텍스트 기반 사전 훈련된 음성 언어 모델
Michael Hassid, Tal Remez, Tu Anh Nguyen, Itai Gat, Alexis Conneau, Felix Kreuk, Jade Copet, Alexandre Defossez, Gabriel Synnaeve, Emmanuel Dupoux, Roy Schwartz, Yossi Adi

초록
음성 언어 모델(Speech language models, SpeechLMs)은 텍스트 지도 없이 음성 데이터만을 처리하고 생성합니다. 본 연구에서는 사전 훈련된 텍스트 언어 모델로부터 초기화(initiation)를 통해 SpeechLM을 훈련하는 방법인 TWIST를 제안합니다. 자동 평가와 인간 평가를 통해 TWIST가 냉시작(cold-start) 방식의 SpeechLM보다 전반적으로 더 우수한 성능을 보임을 입증했습니다. 다양한 모델 설계 선택 사항—예를 들어 음성 토크나이저, 사전 훈련된 텍스트 모델, 데이터셋 크기—에 대한 실증적 분석을 수행한 결과, 모델 규모와 데이터셋 규모 모두 더 뛰어난 성능을 갖춘 SpeechLM을 구축하는 데 중요한 역할을 함을 확인했습니다. 이러한 관찰을 바탕으로, 파라미터 수와 훈련 데이터 양 측면에서 본 연구가 알려진 바에서 가장 큰(SpeechLM)을 제시합니다. 또한, 모델 평가 향상과 향후 연구 발전을 위해 스토리클로즈(StoryCloze) 텍스트 기준을 음성 버전으로 두 가지 도입했습니다. 음성 샘플, 코드, 모델은 모두 공개하여 누구나 접근할 수 있도록 제공합니다: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.