17일 전

FANS: 디바이스 내 SLU를 위한 ASR과 NLU의 융합

Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya Rastrow
FANS: 디바이스 내 SLU를 위한 ASR과 NLU의 융합
초록

말하기 언어 이해(SLU) 시스템은 음성 입력 명령을 의미론적으로 해석하며, 이를 의도(intent)와 슬롯 태그 및 값의 쌍으로 인코딩한다. 현재 대부분의 SLU 시스템은 두 개의 신경망 모델을 연쇄적으로 사용하는데, 첫 번째 모델은 입력 음성을 텍스트로 변환하는 음성 인식(ASR)을 수행하고, 두 번째 모델은 그 텍스트를 기반으로 의도와 슬롯을 예측한다(NLU). 본 논문에서는 입력 음성에서 직접 의도, 슬롯 태그, 슬롯 값을 추론할 수 있도록 ASR 음성 인코더와 다중 작업 NLU 디코더를 융합한 새로운 엔드 투 엔드 SLU 모델인 FANS를 제안한다. 이로 인해 텍스트 변환 과정이 필요 없어진다. FANS는 공유된 음성 인코더와 세 개의 디코더로 구성되며, 그 중 두 개는 시퀀스에서 시퀀스로의 디코더로서, 비-null 슬롯 태그와 슬롯 값을 병렬적으로 자동 회귀적 방식으로 예측한다. FANS의 신경망 인코더 및 디코더 아키텍처는 유연하여 LSTM, 자기 주의(self-attention), 그리고 주의 메커니즘(attenders)의 다양한 조합을 활용할 수 있다. 실험 결과, 자체 개발한 SLU 데이터셋에서 최신 엔드 투 엔드 SLU 모델과 비교해 FANS는 ICER 및 IRER 오류를 각각 30%, 7% 상대적으로 감소시켰으며, 공개된 SLU 데이터셋에서 각각 0.86%, 2%의 절대적 감소를 보였다.