3달 전
저지연 음성 인식을 위한 암모리티제이션 신경망
Jonathan Macoskey, Grant P. Strimel, Jinru Su, Ariya Rastrow

초록
우리는 계산 비용과 지연 시간을 고려한 네트워크 아키텍처인 암모라이즈드 신경망(Amortized Neural Networks, AmNets)을 소개한다. 이 아키텍처는 시계열 모델링 작업에 특히 적합하다. 우리는 AmNets를 순환 신경망 트랜스듀서(RNN-T)에 적용하여 자동 음성 인식(ASR) 작업에서 계산 비용과 지연 시간을 줄였다. AmNets 기반 RNN-T 아키텍처는 프레임 단위로 인코더 브랜치 간 동적으로 전환할 수 있도록 한다. 각 브랜치는 다양한 수준의 계산 비용과 모델 용량을 갖도록 구성된다. 본 연구에서는 두 가지 유명한 후보 기법을 활용하여 가변 계산 비용을 실현하였다: 하나는 희소성 프루닝(sparse pruning), 다른 하나는 행렬 분해(matrix factorization) 기법이다. 프레임 단위 전환은 거의 무시할 수 있는 계산 부담만을 요구하는 조정자 네트워크(arbitrator network)에 의해 결정된다. 우리는 LibriSpeech 데이터셋을 사용하여 두 아키텍처의 성능을 평가하였으며, 제안하는 아키텍처가 정확도 손실 없이 추론 비용을 최대 45%까지 줄이고, 거의 실시간 수준의 지연 시간을 달성할 수 있음을 보였다.