ContextNet: 전역적 맥락을 활용한 컨볼루션 신경망의 자동 음성 인식 성능 향상

합성곱 신경망(Convolutional neural networks, CNN)은 엔드투엔드 음성 인식 분야에서 희망적인 성과를 보여주고 있으나, 여전히 최신 기술 수준의 다른 방법들에 비해 성능 면에서 뒤처지고 있다. 본 논문에서는 이러한 성능 격차를 극복하고 더 나아가기 위해 새로운 CNN-RNN-Transducer 아키텍처를 제안하며, 이를 ContextNet이라 명명한다. ContextNet은 전면적으로 합성곱 기반의 인코더를 채택하여, 스트레치 앤 익시테이션(Squeeze-and-excitation) 모듈을 도입함으로써 합성곱 계층에 전역적인 맥락 정보를 통합한다. 또한, 계산량과 정확도 사이의 우수한 균형을 달성할 수 있는 간단한 확장 방식을 제안한다. 광범위하게 사용되는 LibriSpeech 벤치마크에서 ContextNet은 외부 언어 모델(Language Model, LM) 없이도 클린/노이즈 있는 LibriSpeech 테스트 세트에서 각각 2.1%/4.6%의 단어 오류율(Word Error Rate, WER)을 달성하였으며, LM를 사용할 경우 1.9%/4.1%의 성능을 기록하였다. 또한 파라미터 수가 단 1,000만 개에 불과한 조건에서도 클린/노이즈 테스트 세트에서 각각 2.9%/7.0%의 WER를 달성하였다. 이는 이전에 발표된 최고 성능 시스템의 2.0%/4.6% (LM 사용 시) 및 3.9%/11.3% (2,000만 파라미터 사용 시)에 비해 우수한 성능을 보여준다. 제안된 ContextNet 모델의 우수성은 더 큰 내부 데이터셋에서도 확인되었다.