
초록
이 논문은 자원 제한 환경에서 엔드투엔드 키워드 스포팅(KWS) 모델의 자동 탐색을 위한 신경망 아키텍처 탐색(NAS) 기법을 소개한다. 본 연구에서는 원시 오디오 웨이브폼을 처리하는 합성곱 신경망(CNN)의 구조를 최적화하기 위해 미분 가능한 NAS 접근법을 활용한다. 적절한 KWS 모델을 NAS를 통해 확보한 후, 가중치와 활성화 값을 양자화하여 메모리 사용량을 줄인다. 본 연구는 구글의 음성 명령 데이터셋을 기반으로 광범위한 실험을 수행하였으며, 특히 메르 주파수 체프스트랄 계수(MFCC) 기반 시스템과 본 연구의 엔드투엔드 접근법을 비교하였다. 양자화에 있어서는 고정 비트 폭 양자화와 학습된 비트 폭 양자화를 비교하였다. NAS만을 사용할 경우, 75.7k개의 파라미터와 13.6M개의 연산을 사용하여 95.55%의 정확도를 달성하는 매우 효율적인 모델을 얻을 수 있었다. 학습된 비트 폭 양자화를 적용한 경우, 동일한 모델은 테스트 정확도 93.76%를 유지하면서 활성화 값당 평균 2.91비트, 가중치당 평균 2.51비트만을 사용하였다.