
초록
우리는 음성 명령 인식을 위한 엔드투엔드 신경망인 MatchboxNet을 제안한다. MatchboxNet은 1차원 시간-채널 분리형 합성곱, 배치 정규화, ReLU 및 드롭아웃 레이어로 구성된 블록들로 이루어진 깊은 잔차 네트워크이다. MatchboxNet은 유사한 모델들에 비해 훨씬 적은 파라미터를 가짐에도 불구하고 구글 음성 명령 데이터셋에서 최고 수준의 정확도를 달성한다. MatchboxNet의 소형 구조는 계산 자원이 제한된 장치에 적합한 매력적인 후보가 된다. 또한 이 모델은 매우 확장성이 뛰어나, 적은 추가 메모리와 계산 자원만으로도 정확도를 향상시킬 수 있다. 마지막으로, 보조 노이즈 데이터셋을 활용한 강력한 데이터 증강 기법이 배경 노이즈 상황에서의 모델 강건성 향상에 기여함을 보여준다.