
초록
음성 토큰화는 음성 언어 모델(LM)의 기반이 되며, 구어체 언어 모델링, 텍스트-음성 변환, 음성-텍스트 변환 등의 다양한 작업을 수행할 수 있게 합니다. 대부분의 음성 토큰화 도구는 LM 학습 과정과 독립적으로 훈련되며, 별도의 음향 모델과 양자화 방법에 의존합니다. 이러한 접근 방식은 토큰화 과정과 이후 사용 사이에서 불일치를 초래할 수 있습니다. 본 연구에서는 사전 학습된 텍스트 LM의 목표를 활용하여 음성 토큰화 도구를 학습하는 새로운 접근 방식을 제안합니다. 우리는 이 목표를 이산적인 음성 표현 학습 과정에 통합하는 것을 지지합니다. 우리의 목표는 사전 학습된 음성 모델로부터 추출한 특성을 새로운 특성 공간으로 변환하여, 음성 LM을 위한 더 나은 클러스터링이 가능하도록 하는 것입니다. 우리는 경험적으로 다양한 모델 설계 선택사항, 예를 들어 음성 어휘 크기와 텍스트 LM 크기 등이 미치는 영향을 조사하였습니다. 결과적으로, 제안된 토큰화 방법은 구어체 언어 모델링과 음성-텍스트 변환 측면에서 평가된 기준모델들을 능가함을 입증하였습니다. 더욱 중요한 점은, 기존 연구와 달리 제안된 방법은 단일 사전 학습된 LM을 통해 음성 및 텍스트 입력 모두를 처리할 수 있도록 하여, 전통적인 토큰화 접근 방식과 차별화됩니다.