17일 전
HEiMDaL: 웨이크워드 탐지 및 위치 결정을 위한 고효율 방법
Arnav Kundu, Mohammad Samragh Razlighi, Minsik Cho, Priyanka Padmanabhan, Devang Naik

초록
스트리밍 키워드 스팟팅은 음성 보조 기능을 활성화하는 데 널리 사용되는 솔루션이다. 은닉 마르코프 모델(Hidden Markov Model, HMM) 기반의 심층 신경망(DNN-HMM) 방법은 계산 비용이 낮은 수준에서 웨이크워드의 시작과 종료를 탐지하고 식별할 수 있다는 점에서 효율적이고 널리 채택되고 있다. 그러나 이러한 하이브리드 시스템은 DNN과 HMM이 별도로 학습될 경우 손실 지표 불일치(loss metric mismatch) 문제에 노출된다. 시퀀스 구분 학습(sequence discriminative training)은 HMM의 본질적인 마르코프 성격 때문에 손실 지표 불일치 문제를 완전히 완화할 수 없다. 본 논문에서는 스트리밍 환경에서 키워드를 탐지하고 위치를 정확히 파악하기 위해, 낮은 메모리 사용량을 특징으로 하는 새로운 CNN 모델인 HEiMDaL을 제안한다. HEiMDaL은 키워드 발생을 탐지하기 위한 어라이어먼트 기반 분류 손실(alignment-based classification loss)과 키워드 시작 지점을 예측하기 위한 오프셋 손실(offset loss)을 도입한다. 실험 결과, 기존 DNN-HMM 기반 모델과 동일한 메모리 사용량을 유지하면서도 탐지 지표에서 73%의 감소를 기록하였으며, 위치 정확도는 동일하게 유지하였다.