17일 전
Conformer: 음성 인식을 위한 컨볼루션 보강형 Transformer
Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang

초록
최근 Transformer와 합성곱 신경망(Convolutional Neural Network, CNN) 기반 모델이 자동 음성 인식(Automatic Speech Recognition, ASR) 분야에서 뛰어난 성과를 보이며, 기존의 순환 신경망(Recurrent Neural Network, RNN)을 능가하고 있다. Transformer 모델은 콘텐츠 기반의 전역적 상호작용을 효과적으로 학습할 수 있는 반면, CNN은 국소적 특징을 잘 활용할 수 있다. 본 연구에서는 파라미터 효율적인 방식으로 음성 시퀀스의 국소적 및 전역적 의존성을 동시에 모델링할 수 있도록 CNN과 Transformer를 효과적으로 결합하는 방법을 탐구함으로써, 두 기술의 장점을 모두 취하는 것을 목표로 하였다. 이를 위해 음성 인식을 위한 합성곱 증강형 Transformer 모델인 Conformer를 제안한다. Conformer는 기존의 Transformer 및 CNN 기반 모델들을 크게 능가하며, 최신 기술 수준의 정확도를 달성하였다. 널리 사용되는 LibriSpeech 벤치마크에서, 언어 모델을 사용하지 않은 경우 테스트/테스트오더(test/testother)에 각각 2.1%/4.3%의 오류율(WER)을 기록하였으며, 외부 언어 모델을 사용할 경우 1.9%/3.9%의 WER를 달성하였다. 또한 파라미터 수가 단지 10M에 불과한 소형 모델임에도 불구하고 2.7%/6.3%의 경쟁력 있는 성능을 보였다.