2달 전

음성 모델의 사전 학습을 통한 엔드투엔드 구어 언어 이해

Loren Lugosch; Mirco Ravanelli; Patrick Ignoto; Vikrant Singh Tomar; Yoshua Bengio
음성 모델의 사전 학습을 통한 엔드투엔드 구어 언어 이해
초록

전통적인 음성 언어 이해(SLU) 시스템은 음성을 텍스트로 변환한 후, 텍스트를 의도로 매핑하는 반면, 엔드투엔드 SLU 시스템은 단일 학습 가능한 모델을 통해 음성을 직접 의도로 매핑합니다. 이러한 엔드투엔드 모델에서 높은 정확도를 달성하기 위해서는 많은 양의 학습 데이터가 필요하지만, 이는 쉽지 않습니다. 우리는 모델이 먼저 단어와 음소를 예측하도록 사전 학습함으로써 SLU에 적합한 좋은 특징을 학습할 수 있는 방법을 제안하여 엔드투엔드 SLU의 데이터 요구사항을 줄이는 방안을 제시합니다. 또한 새로운 SLU 데이터셋인 'Fluent Speech Commands'를 소개하고, 전체 데이터셋을 사용하여 학습할 때나 작은 부분 집합만 사용할 때 우리 방법이 성능 개선에 기여함을 보입니다. 우리는 또한 모델이 훈련 중에 듣지 못한 새로운 문구에 일반화할 수 있는 능력을 평가하기 위한 초기 실험들을 설명합니다.