17일 전

Wav2Seq: 가상 언어를 이용한 음성-텍스트 인코더-디코더 모델의 사전 훈련

Felix Wu, Kwangyoun Kim, Shinji Watanabe, Kyu Han, Ryan McDonald, Kilian Q. Weinberger, Yoav Artzi
Wav2Seq: 가상 언어를 이용한 음성-텍스트 인코더-디코더 모델의 사전 훈련
초록

우리는 음성 데이터를 위한 인코더-디코더 모델의 두 부분을 동시에 사전 훈련할 수 있는 최초의 자기지도 학습 접근법인 Wav2Seq를 소개한다. 우리는 압축된 이산적 표현으로서의 가상 언어(pseudo language)를 유도하고, 음성 입력을 가상의 서브워드 시퀀스로 변환하는 자기지도 학습 기반의 가상 음성 인식 작업을 정의한다. 이 과정은 독립적으로 수행될 수 있으며, 저비용의 2단계 사전 훈련으로도 활용 가능하다. 우리는 음성 인식(ASR), 말하는 명명된 실체 인식, 음성-텍스트 번역 등 다양한 작업에서 실험을 수행하였다. 특히 엔드투엔드 형태의 말하는 명명된 실체 인식에서는 새로운 최고 성능을 달성하였으며, 음성-텍스트 번역에서는 20개의 언어 쌍에 걸쳐 일관된 성능 향상을 보였다. 이는 경쟁 방법이 추가적인 텍스트 데이터를 사용하여 훈련하는 경우에도 해당된다. 마지막으로 음성 인식(task)에서는, 본 방법을 통해 인코더-디코더 구조의 모델이 네트워크의 모든 부분에 대해 사전 훈련의 이점을 누릴 수 있으며, 최근에 매우 최적화된 방법들과 비교해도 유사한 성능을 보였다.