2달 전

음성 명령 인식을 위한 신경망 주의 모델

Douglas Coimbra de Andrade; Sabato Leo; Martin Loesener Da Silva Viana; Christoph Bernkopf
음성 명령 인식을 위한 신경망 주의 모델
초록

본 논문에서는 음성 명령 인식을 위한 컨볼루션 재귀 신경망(CRN)에 주의 메커니즘을 도입한 모델을 소개합니다. 주의 모델은 자연어 처리, 이미지 캡셔닝 및 음성 인식 작업에서 성능 향상을 위해 강력한 도구입니다. 제안된 모델은 구글 음성 명령 데이터셋 V1에서 94.1%, V2에서 20개 명령어 인식 작업에 대해 94.5%의 새로운 최고 수준의 정확도를 달성하였으며, 학습 가능한 매개변수는 단 202K로 매우 작습니다. 이 결과는 이전의 컨볼루션 구현과 5가지 다른 작업(20개 명령어 인식(V1 및 V2), 12개 명령어 인식(V1), 35개 단어 인식(V1) 및 좌우 인식(V1))에서 비교되었습니다. 우리는 상세한 성능 결과를 제시하며, 제안된 주의 메커니즘이 성능 향상뿐만 아니라 네트워크가 특정 범주를 출력할 때 고려한 오디오 영역을 검사할 수 있음을 보여줍니다.