17일 전
효율적인 키워드 스포팅을 위한 브로드캐스트 잔차 학습
Byeonggeun Kim, Simyung Chang, Jinkyu Lee, Dooyong Sung

초록
키워드 스팟팅은 스마트 디바이스에서 장치의 웨이크업 및 사용자 상호작용에 핵심적인 역할을 하기 때문에 중요한 연구 분야이다. 그러나 모바일폰과 같은 자원이 제한된 디바이스에서 효율적으로 작동하면서 오류를 최소화하는 것은 여전히 도전적인 과제이다. 본 연구에서는 작고 효율적인 모델 크기와 낮은 계산 부하로 높은 정확도를 달성하기 위해 방송형 잔차 학습(Broadcasted Residual Learning) 기법을 제안한다. 제안하는 방법은 대부분의 잔차 함수를 1차원 시계열 컨볼루션으로 구성하면서도, 시계열 출력을 주파수-시계열 차원으로 확장하는 방송형 잔차 연결을 통해 2차원 컨볼루션을 함께 활용할 수 있도록 설계하였다. 이러한 잔차 매핑은 기존의 컨볼루션 신경망보다 훨씬 적은 계산량으로 유용한 음성 특징을 효과적으로 표현할 수 있게 한다. 또한, 방송형 잔차 학습 기반의 새로운 네트워크 아키텍처인 Broadcasting-residual network(BC-ResNet)을 제안하고, 타겟 디바이스의 자원에 따라 모델을 확장하는 방법을 설명한다. BC-ResNet은 Google Speech Command 데이터셋 v1과 v2에서 각각 98.0%, 98.7%의 최상위 1 정확도를 달성하며, 더 적은 계산량과 파라미터 수로 이전의 접근법들을 일관되게 능가한다. 코드는 https://github.com/Qualcomm-AI-research/bcresnet 에서 공개되어 있다.