2달 전
다중 층 주의 메커니즘을 이용한 음성 키워드 인식
Ruisen Luo; Tianran Sun; Chen Wang; Miao Du; Zuodong Tang; Kai Zhou; Xiaofeng Gong; Xiaomei Yang

초록
음성 인식 기술의 중요한 부분으로서, 자동 음성 키워드 인식은 최근 몇 년 동안 집중적으로 연구되어 왔습니다. 이러한 기술은 차량에서의 음성 명령 인식이나 로봇 상호작용과 같은 인프라와 계산 자원이 제한된 환경에서 특히 중요해집니다. 현재, 자동 음성 키워드 인식의 주요 방법은 어텐션 메커니즘을 사용한 장단기 기억(LSTM) 네트워크를 기반으로 하고 있습니다. 그러나, 특징 추출 과정에서 LSTM 레이어에 불가피하게 발생하는 정보 손실로 인해 계산된 어텐션 가중치가 편향됩니다. 본 논문에서는 이러한 부정확한 어텐션 가중치 문제를 해결하기 위한 새로운 접근 방법인 다층 어텐션 메커니즘이 제안됩니다. 핵심 아이디어는 전통적인 어텐션 메커니즘뿐만 아니라 특징 추출 및 LSTM 이전의 레이어 정보를 어텐션 가중치 계산에 도입하는 것입니다. 따라서 전체 모델이 더 정확하고 집중적인 영역을 갖게 되므로 어텐션 가중치가 더욱 정확해집니다. 우리는 구글 음성 명령 데이터셋 V2에서 합성곱 신경망(CNN), 양방향 LSTM 순환 신경망(Bi-LSTM RNN), 그리고 제안된 어텐션 메커니즘을 적용한 순환 신경망(RNN)의 키워드 스포팅 성능을 종합적으로 비교 및 분석하였습니다. 실험 결과는 제안된 방법이 유리한 결과를 보여주며, 해당 방법의 유효성을 입증하였습니다. 제안된 다층 어텐션 방법은 객체 스포팅과 관련된 다른 연구에도 유용할 수 있습니다.