17일 전

저발자량 퀀텀 신경 모델을 이용한 디바이스 내 키워드 스팟팅 기술 개발

{Vinayak Abrol, Aryan Chaudhary}
초록

장치 내 키워드 탐지(KWS)는 스마트 엣지 디바이스에서 웨이크업 및 사용자 상호작용을 위한 핵심 요소이다. 기존의 저발자원 모델은 주로 2차원 및 1차원 컨볼루션 기반으로 구성되어 있으며, 2차원 컨볼루션은 불변성(invariance)을 더 효과적으로 포착하는 반면, 1차원 컨볼루션은 더 빠른 추론 시간을 제공한다. 본 연구에서는 KWS 작업을 위한 효과적인 음성 모델링을 위해 퀄터니언(Quaternion) 신경망 모델을 대안으로 탐구한다. 퀄터니언 모델은 입력 특징의 다양한 측면을 퀄터니언 공간의 다차원 구조 내에 통합할 수 있어, 전통적인 모델 대비 더 작고 효율적인 모델 구조를 가능하게 한다. 우리는 Google Command V2 데이터셋을 활용하여 대표적인 KWS 모델의 퀄터니언 버전을 실험하여, 기존 모델과 유사한 성능을 달성함을 입증하였다. 또한, 퀄터니언 네트워크 내에서의 학습 동작에 대한 광범위한 분석을 제공함으로써, 이 모델이 다른 음성/오디오 작업에 적용될 수 있도록 하는 근거를 제시한다.