3달 전

저지연 음성 인식을 위한 암모리티제이션 신경망

Jonathan Macoskey, Grant P. Strimel, Jinru Su, Ariya Rastrow
저지연 음성 인식을 위한 암모리티제이션 신경망
초록

우리는 계산 비용과 지연 시간을 고려한 네트워크 아키텍처인 암모라이즈드 신경망(Amortized Neural Networks, AmNets)을 소개한다. 이 아키텍처는 시계열 모델링 작업에 특히 적합하다. 우리는 AmNets를 순환 신경망 트랜스듀서(RNN-T)에 적용하여 자동 음성 인식(ASR) 작업에서 계산 비용과 지연 시간을 줄였다. AmNets 기반 RNN-T 아키텍처는 프레임 단위로 인코더 브랜치 간 동적으로 전환할 수 있도록 한다. 각 브랜치는 다양한 수준의 계산 비용과 모델 용량을 갖도록 구성된다. 본 연구에서는 두 가지 유명한 후보 기법을 활용하여 가변 계산 비용을 실현하였다: 하나는 희소성 프루닝(sparse pruning), 다른 하나는 행렬 분해(matrix factorization) 기법이다. 프레임 단위 전환은 거의 무시할 수 있는 계산 부담만을 요구하는 조정자 네트워크(arbitrator network)에 의해 결정된다. 우리는 LibriSpeech 데이터셋을 사용하여 두 아키텍처의 성능을 평가하였으며, 제안하는 아키텍처가 정확도 손실 없이 추론 비용을 최대 45%까지 줄이고, 거의 실시간 수준의 지연 시간을 달성할 수 있음을 보였다.