17일 전

사전 훈련된 네트워크와 연속 토큰 인터페이스의 통합을 통한 엔드투엔드 음성 언어 이해

Seunghyun Seo, Donghyun Kwak, Bowon Lee
사전 훈련된 네트워크와 연속 토큰 인터페이스의 통합을 통한 엔드투엔드 음성 언어 이해
초록

대부분의 엔드투엔드(End-to-End, E2E) 음성 명령 이해(SLU) 네트워크는 사전 훈련된 음성 인식(ASR) 네트워크를 활용하지만, 여전히 발화의 의미를 이해하는 능력이 부족하여 SLU 작업에 필수적인 요소를 충족하지 못하고 있다. 이를 해결하기 위해 최근 제안된 연구들은 사전 훈련된 자연어 이해(NLU) 네트워크를 사용하고 있다. 그러나 두 사전 훈련된 네트워크를 효과적으로 통합하는 것은 쉽지 않으며, 지식 증류(Knowledge Distillation), 다중 모달 공유 임베딩, 인터페이스(Interface)를 활용한 네트워크 통합 등 다양한 해결책이 제시되어 왔다. 본 연구에서는 동일한 어휘 집합으로 사전 훈련된 ASR 및 NLU 네트워크 간의 접합 표현(junctional representation)을 활용하는 간단하고 강력한 통합 방법을 제안한다. 이 방법은 새로운 인터페이스인 연속 토큰 인터페이스(Continuous Token Interface, CTI)를 도입하며, 두 네트워크 간의 유일한 차이는 노이즈 수준일 뿐이므로, ASR 네트워크의 출력을 그대로 NLU 네트워크에 입력한다. 이를 통해 Gumbel-Softmax와 같은 추가 모듈 없이도 E2E 방식으로 SLU 네트워크를 훈련할 수 있다. 제안한 모델은 도전적인 SLU 데이터셋인 SLURP를 이용해 평가되었으며, 의도 분류 및 슬롯 채우기(task)에서 최신 기술(SOTA) 수준의 성능을 달성하였다. 또한, 마스크된 언어 모델(Masked Language Model)로 사전 훈련된 NLU 네트워크가 CTI의 노이즈가 포함된 텍스트 표현을 효과적으로 활용할 수 있음을 입증하였다. 더불어, CTI를 통합한 후에도 이중 학습(multi-task learning)을 통해 이질적인 데이터로부터 모델을 훈련할 수 있음을 보였다.