2달 전

모바일 기기에서 실시간 키워드 인식을 위한 시간적 컨볼루션

Seungwoo Choi; Seokjun Seo; Beomjun Shin; Hyeongmin Byun; Martin Kersner; Beomsu Kim; Dongyoung Kim; Sungjoo Ha
모바일 기기에서 실시간 키워드 인식을 위한 시간적 컨볼루션
초록

키워드 인식(Keyword Spotting, KWS)은 스마트 기기에서 음성 기반 사용자 상호작용을 가능하게 하는 데 중요한 역할을 합니다. 딥러닝 분야의 최근 발전으로 인해 KWS 시스템에서 합성곱 신경망(Convolutional Neural Networks, CNNs)이 그들의 뛰어난 정확도와 견고함 덕분에 널리 채택되었습니다. KWS 시스템이 직면한 주요 과제는 고정확도와 저지연 간의 균형입니다. 불행히도, 모바일 기기에서 KWS 모델의 실제 지연에 대한 양적 분석이 거의 이루어지지 않았습니다. 이는 특히, 전통적인 합성곱 기반 KWS 접근 방식이 적절한 수준의 성능을 달성하기 위해 많은 연산을 필요로 한다는 점에서 더욱 우려스럽습니다. 본 논문에서는 모바일 기기에서 실시간 KWS를 위한 시간적 합성곱 방법을 제안합니다. 대부분의 2D 합성곱 기반 KWS 접근 방식이 저주파 및 고주파 영역 모두를 완전히 포착하기 위해 깊은 구조가 필요하다는 것과 달리, 우리는 컴팩트한 ResNet 구조를 활용하여 시간적 합성곱을 적용하였습니다. Google Speech Command 데이터셋에서 Google Pixel 1 기기에서 \textbf{385배} 이상의 속도 향상을 달성하였으며, 최신 모델보다 정확도를 뛰어넘었습니다. 또한, 제안된 모델과 베이스라인 모델의 구현체를 포함하여 모바일 기기에서 모델을 훈련하고 평가하는 엔드투엔드 파이프라인을 공개합니다.