3달 전
QuartzNet: 1차원 시간-채널 분리형 합성곱을 이용한 깊이 있는 자동 음성 인식
Samuel Kriman, Stanislav Beliaev, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Yang Zhang

초록
우리는 자동 음성 인식을 위한 새로운 엔드투엔드 신경 음성 모델을 제안한다. 이 모델은 서로 간에 잔차 연결(residual connection)이 있는 다수의 블록으로 구성되어 있다. 각 블록은 1차원 시간-채널 분리형 합성곱 층(1D time-channel separable convolutional layers), 배치 정규화(batch normalization), 그리고 ReLU 층으로 구성된 하나 이상의 모듈을 포함한다. 제안된 네트워크는 CTC 손실(CTC loss)을 사용하여 학습되며, LibriSpeech 및 Wall Street Journal 데이터셋에서 기존의 모든 경쟁 모델보다 파라미터 수가 적으면서도 거의 최상의 정확도를 달성한다. 또한, 이 모델이 새로운 데이터셋에서 효과적으로 미세 조정(fine-tuning)될 수 있음을 보여준다.