18일 전

말-언어 사전 학습을 통한 엔드투엔드 음성 언어 이해

Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao, Michael Zeng
말-언어 사전 학습을 통한 엔드투엔드 음성 언어 이해
초록

엔드투엔드(End-to-end, E2E) 음성 언어 이해(Spoken Language Understanding, SLU)는 자동 음성 인식(Automatic Speech Recognition, ASR) 모듈과 자연어 이해(Natural Language Understanding, NLU) 모듈을 계단식으로 연결하지 않고, 음성 신호로부터 직접 의미를 추론할 수 있다. 그러나 실제 서비스 환경에서는 쌍으로 구성된 발화 기록과 해당 의미 데이터가 항상 존재하거나 충분하지 않을 수 있다. 본 논문에서는 잘 최적화된 E2E ASR 인코더(음성)와 사전 훈련된 언어 모델 인코더(언어)를 하나의 트랜스포머 디코더 내에 통합하는 방법을 제안한다. 이 통합된 음성-언어 사전 훈련 모델(Speech-Language Pre-trained model, SLP)은 타겟 도메인에서 제한된 레이블 데이터를 활용하여 조건부 마스킹 언어 모델(Masked Language Model, MLM) 목적 함수를 통해 지속적으로 개선되며, 추론 시 입력된 음성에 대해 의도(intent), 슬롯 타입(slot type), 슬롯 값(slot value)의 시퀀스를 효과적으로 생성할 수 있다. 두 개의 공개 코퍼스에서 수행한 실험 결과에 따르면, 본 연구에서 제안하는 E2E SLU 접근법은 기존의 계단식 방법보다 우수하며, 현재 최고 수준의 E2E SLU 기법들에 비해 훨씬 적은 쌍 데이터를 사용함에도 불구하고 성능에서 앞서는 것을 확인할 수 있었다.