3달 전

QuartzNet: 1차원 시간-채널 분리형 합성곱을 이용한 깊이 있는 자동 음성 인식

Samuel Kriman, Stanislav Beliaev, Boris Ginsburg, Jocelyn Huang, Oleksii Kuchaiev, Vitaly Lavrukhin, Ryan Leary, Jason Li, Yang Zhang
QuartzNet: 1차원 시간-채널 분리형 합성곱을 이용한 깊이 있는 자동 음성 인식
초록

우리는 자동 음성 인식을 위한 새로운 엔드투엔드 신경 음성 모델을 제안한다. 이 모델은 서로 간에 잔차 연결(residual connection)이 있는 다수의 블록으로 구성되어 있다. 각 블록은 1차원 시간-채널 분리형 합성곱 층(1D time-channel separable convolutional layers), 배치 정규화(batch normalization), 그리고 ReLU 층으로 구성된 하나 이상의 모듈을 포함한다. 제안된 네트워크는 CTC 손실(CTC loss)을 사용하여 학습되며, LibriSpeech 및 Wall Street Journal 데이터셋에서 기존의 모든 경쟁 모델보다 파라미터 수가 적으면서도 거의 최상의 정확도를 달성한다. 또한, 이 모델이 새로운 데이터셋에서 효과적으로 미세 조정(fine-tuning)될 수 있음을 보여준다.