중요한 것을 최적화하라: 최종 메트릭을 사용한 DNN-HMM 키워드 스포팅 모델 훈련

딥 뉴럴 네트워크-히든 마르코프 모델(DNN-HMM) 기반 방법은 항상 켜져 있는 키워드 스노팅 알고리즘에서 주로 사용되며, 장치를 활성화하는 웨이크 워드(wake word)를 탐지하는 데 성공적으로 활용되었다. DNN은 주어진 음성 프레임에 대한 상태 확률을 예측하고, HMM 디코더는 여러 음성 프레임에 대한 DNN 예측값을 결합하여 키워드 탐지 점수를 계산한다. 기존의 방법에서는 DNN이 교차 엔트로피 손실을 최소화하기 위해 HMM 파라미터와 무관하게 독립적으로 학습되며, 이는 예측된 상태 확률과 실제 상태 확률 사이의 손실을 줄이기 위한 것이다. 그러나 DNN 학습 손실(교차 엔트로피)과 최종 평가 지표(탐지 점수) 사이의 불일치가 키워드 스노팅 작업에서의 비최적 성능의 주요 원인이다. 본 연구에서는 탐지 점수를 최적화함으로써 DNN 파라미터를 학습하는 새로운 엔드투엔드 학습 전략을 제안하여 이 손실-지표 불일치 문제를 해결한다. 이를 위해 HMM 디코더(동적 프로그래밍)를 미분 가능하게 만들고, 그를 통해 역전파(back-propagation)를 수행하여 키워드에 대한 점수는 최대화하고 비키워드 음성 구간의 점수는 최소화한다. 제안된 방법은 모델 아키텍처나 추론 프레임워크에 어떠한 변경도 필요로 하지 않으므로, 런타임 메모리나 계산 요구량에 추가 부담이 없다. 또한 독립적인 DNN 학습 대비 동일한 거짓 트리거 경험 조건에서 오류 거부율(FRR)이 크게 감소함을 보여주며, 이는 70% 이상의 성능 향상을 의미한다.