9일 전

텍스트 없이 음성 강조를 고려한 생성형 구두 언어 모델링

Eugene Kharitonov, Ann Lee, Adam Polyak, Yossi Adi, Jade Copet, Kushal Lakhotia, Tu-Anh Nguyen, Morgane Rivière, Abdelrahman Mohamed, Emmanuel Dupoux, Wei-Ning Hsu
텍스트 없이 음성 강조를 고려한 생성형 구두 언어 모델링
초록

음성 사전 훈련은 주로 분류 작업에서 효과를 입증했지만, GPT-2가 일관된 문단을 생성할 수 있듯이 새로운 음성을 생성하는 능력에 대해서는 거의 탐구되지 않았다. 생성형 구어 언어 모델링(GSLM) \cite{Lakhotia2021}은 사전 훈련된 음성의 생성적 측면을 다룬 유일한 이전 연구로, 언어 모델링을 위해 텍스트 대신 발견된 음소 유사 단위를 사용하며, 의미 있는 새로운 문장을 생성할 수 있음을 보여주었다. 그러나 텍스트의 필요성을 제거함에도 불구하고 GSLM에서 사용된 단위들은 대부분의 음성적 정보(프로소디)를 소실시키기 때문에, 프로소디를 활용한 더 나은 이해를 이루지 못하며, 표현력 있는 음성을 생성하지 못한다. 본 연구에서는 프로소디 인지 생성형 구어 언어 모델(pGSLM)을 제안한다. 이 모델은 발견된 단위와 프로소디 특징의 두 가지 스트림으로 표현된 다중 스트림 트랜스포머 언어 모델(MS-TLM)과, MS-TLM의 출력을 웨이브폼으로 변환하는 적응형 HiFi-GAN 모델로 구성된다. 우리는 프로소디 모델링과 생성을 위한 일련의 평가 지표를 설계하였으며, 콘텐츠 모델링을 위해 GSLM에서 사용한 지표를 재사용하였다. 실험 결과, pGSLM은 프로소디를 활용하여 프로소디 및 콘텐츠 모델링 모두를 개선할 수 있으며, 구어 입력(prompt)을 주었을 때 자연스럽고 의미 있으며 일관된 음성을 생성할 수 있음을 확인하였다. 오디오 샘플은 https://speechbot.github.io/pgslm 에서 확인할 수 있으며, 코드와 모델은 https://github.com/pytorch/fairseq/tree/main/examples/textless_nlp/pgslm 에서 제공된다.

텍스트 없이 음성 강조를 고려한 생성형 구두 언어 모델링 | 최신 연구 논문 | HyperAI초신경