17일 전

음성 합성 기법을 활용한 엔드투엔드 구동 언어 이해 모델 훈련

Loren Lugosch, Brett Meyer, Derek Nowrouzezahrai, Mirco Ravanelli
음성 합성 기법을 활용한 엔드투엔드 구동 언어 이해 모델 훈련
초록

엔드투엔드 모델은 표준 파이프라인인 별도로 훈련된 음성 인식기와 자연어 이해 모듈을 사용하지 않고, 원시 음성 데이터로부터 직접 발화의 의미를 추론하는 말하기 언어 이해(SLU)의 매력적인 새로운 접근법이다. 엔드투엔드 SLU의 단점은 모델 훈련을 위해 도메인 내 음성 데이터를 반드시 촬영해야 한다는 점이다. 본 논문에서는 이 요구 조건을 극복하기 위한 전략을 제안한다. 이 전략은 몇몇 인공 발화자로부터 대량의 합성 훈련 데이터를 음성 합성 기술을 활용해 생성하는 방식이다. 두 개의 오픈소스 SLU 데이터셋에 대한 실험을 통해 제안한 방법의 효과성을 입증하였으며, 이는 단독 훈련 데이터 소스로 사용되었을 때와 데이터 증강(data augmentation) 형태로 사용되었을 때 모두 유효함을 확인하였다.