17일 전

일반화된 음성 보조자용 엔드투엔드 음성 언어 이해

Michael Saxon, Samridhi Choudhary, Joseph P. McKenna, Athanasios Mouchtaris
일반화된 음성 보조자용 엔드투엔드 음성 언어 이해
초록

엔드투엔드(End-to-end, E2E) 음성 언어 이해(Spoken Language Understanding, SLU) 시스템은 단일 모델을 통해 음성 입력에서 직접 발화의 의미를 예측한다. 기존의 이 분야 연구는 고정된 도메인 내에서 특정 작업에 초점을 맞추어 왔으며, 출력 의미 구조는 미리 가정되며 입력 음성의 복잡성도 제한적이다. 본 연구에서는 상용 음성 어시스턴트(Voice Assistant, VA)에서 일반화된 SLU를 위한 E2E 모델 개발에 대한 우리의 접근법을 제시한다. 우리는 ASR(음성 인식) 및 NLU(언어 이해) 수준에서 사전 학습이 가능한 완전히 미분 가능한 Transformer 기반 계층적 시스템을 제안한다. 이 시스템은 음성 전사 및 의미 분류 손실을 동시에 최적화하여 다양한 의도(intent)와 인자(argument) 조합을 처리할 수 있도록 세부 조정(fine-tuning)된다. 이를 통해 복잡한 내부 일반화된 VA 데이터셋에서 기존 베이스라인 대비 정확도가 43% 향상된 SLU 시스템을 구현하였으며, 대표적인 Fluent Speech Commands 데이터셋에서도 99% 정확도 기준을 충족시켰다. 또한, 훈련 데이터에 등장하지 않은 슬롯 인자만 포함된 어려운 테스트 세트에서 모델을 추가 평가한 결과, 약 20%의 정확도 향상을 입증하며, 실제 요구가 높은 VA 환경에서 본 방법의 효과성을 입증하였다.