키워드 스팟팅(KWS)은 스마트 온디바이스 단말기 및 서비스 로봇과 같은 인간-컴퓨터 상호작용의 핵심 구성 요소로, 탐지 정확도를 극대화하면서도 모델의 크기를 최소화하는 것이 주요 목적이다. 본 논문에서는 DenseNet이 국부적 특징 맵을 추출하는 데 뛰어난 능력을 지닌 점에 착안하여, KWS를 위한 새로운 네트워크 아키텍처인 DenseNet-BiLSTM을 제안한다. 제안한 DenseNet-BiLSTM에서 DenseNet은 주로 국부적 특징을 추출하는 데 사용되며, BiLSTM은 시계열 특징을 학습하는 데 활용된다. 일반적으로 DenseNet은 컴퓨터 비전 작업에 주로 사용되며, 음성 오디오의 맥락 정보를 손상시킬 수 있다. 이를 KWS에 적합하게 하기 위해, 전이 계층(transition layers)에서 시간 차원에 대한 풀링을 제거하여 음성 시계열 정보를 유지하는 변형된 DenseNet, 즉 DenseNet-Speech를 제안한다. 또한, 모델의 크기를 줄이고 모바일 장치에서의 처리 시간을 감소시키기 위해, 덜 많은 밀집 블록(Dense blocks)과 필터를 사용한다. 실험 결과, DenseNet-Speech에서 추출된 특징 맵이 시계열 정보를 잘 유지함을 확인할 수 있었다. 제안한 방법은 Google Speech Commands 데이터셋에서 최신 기술 대비 정확도 면에서 우수한 성능을 보였다. DenseNet-BiLSTM은 223K개의 학습 가능한 파라미터로 20개 명령어 인식 작업에서 96.6%의 정확도를 달성할 수 있다.